WO2020091404A1

WO2020091404A1 - 비디오 송신 방법, 비디오 전송 장치, 비디오 수신 방법 및 비디오 수신 장치

Info

Publication number: WO2020091404A1
Application number: PCT/KR2019/014437
Authority: WO
Inventors: 오현묵; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2018-10-30
Filing date: 2019-10-30
Publication date: 2020-05-07
Also published as: US20210385423A1; US11394946B2

Abstract

실시예들에 따른 비디오 전송 방법은 복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계, 및 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계를 포함할 수 있다. 실시예들에 따른 비디오 수신 방법은 뷰잉 포지션 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계, 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계, 및 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계 및 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계를 포함할 수 있다.

Description

비디오 송신 방법, 비디오 전송 장치, 비디오 수신 방법 및 비디오 수신 장치

본 명세서의 실시예들은 비디오 송신 방법, 비디오 전송 장치, 비디오 수신 방법 및 비디오 수신 장치(A method for transmitting a video, an apparatus for transmitting a video, a method for receiving a video and an apparatus for receiving a video)에 관한 것이다.

VR (Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경내에 있는 것 같은 감각을 제공한다. VR 을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 시스템은 사용자가 인터랙티브하게 VR 컨텐트들을 소비할 수 있도록 할 수 있다.

VR 시스템은 더 효율적으로 VR 환경을 사용자에게 제공하기 위하여, 개선될 필요가 있다. 이를 위하여 VR 컨텐츠와 같은 많은 양의 데이터 전송을 위한 데이터 전송 효율, 송수신 네트워크 간의 강건성, 모바일 수신 장치를 고려한 네트워크 유연성, 효율적인 재생 및 시그널링을 위한 방안등이 제안되어야 한다.

상술한 기술적 과제를 달성하기 위하여, 실시예들에 따른 비디오 전송 방법 및 비디오 수신 방법이 개시된다.

실시예들에 따른 비디오 전송 방법은, 복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계; 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계; 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계; 를 포함할 수 있다.

또한, 비디오 전송 방법은, 복수의 뷰잉 포지션들에 대한 픽처들에 포함된 소스 뷰 픽처들에 기초하여 센터 뷰 픽처(center view picture) 및 센터 뷰 제너레이션 정보(center view generation information)를 생성하는 단계; 및 소스 뷰 픽처들에 기초하여 중간 뷰 픽처를 합성하는 단계, 중간 뷰 픽처를 합성하는 단계는 프리-제너레이션 정보(pre-generation information) 및 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)를 생성함; 를 더 포함할 수 있다. 또한, 인터-뷰 리던던시를 제거하는 단계는 소스 뷰 픽처들, 중간 뷰 픽처 및 센터 뷰 픽처 중 적어도 두 개의 픽처에 기초하여 스파스 뷰(sparse view) 픽처들을 생성할 수 있다. 또한, 인터-뷰 리던던시를 제거하는 단계는 레퍼런스 뷰(reference view) 픽처들, 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 더 생성할 수 있다.

추가적으로, 실시예들에 따르면, 비디오 전송 방법은, 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처 및 센터 뷰 픽처에 기초하여 임시 재생성된 뷰 픽처(temporally regenerated view picture)를 생성하는 단계; 및 임시 재생성된 뷰 픽처 및 센터 뷰 픽처로부터 추측된 소스 뷰를 프루닝(pruning)하는 단계, 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함; 를 더 포함할 수 있고, 인코딩하는 단계는 제 2 스파스 뷰 픽처를 더 인코딩할 수 있다.

또한, 비디오 전송 방법은, 패킹 및 인코딩된 픽처들을 디코딩 및 언패킹하는 단계, 디코딩 및 언패킹된 픽처들은 임시 디코딩된 공통 레퍼런스 뷰 픽처(temporally decoded common reference view picture) 및 임시 디코딩된 스파스 뷰 픽처(temporally decoded sparse view picture)를 포함함; 임시 디코딩된 공통 레퍼런스 뷰 픽처 및 임시 디코딩된 스파스 뷰 픽처에 기초하여 재생성된 뷰를 생성하는 단계; 및, 재생성된 뷰 및 임시 디코딩된 공통 레퍼런스 뷰 픽처로부터 추측된 소스 뷰 픽처를 프루닝하는 단계, 프루닝하는 단계는 오류 로버스트 스파스 뷰 픽처(error robust sparse view picture)를 생성함; 를 포함할 수 있다. 여기서, 패킹하는 단계는 오류 로버스트 스파스 뷰 픽처를 더 패킹할 수 있다.

추가로 실시예들에 따르면, 인터-뷰 리던던시를 제거하는 단계는, 제 1 뷰잉 포지션과 관련된 제 1 소스 뷰 픽처를 센터 뷰 픽처에 기초하여 제 1 프루닝하는 단계, 제 1 프루닝하는 단계는 제 1 스파스 뷰 픽처를 생성함; 제 1 소스 뷰 픽처를 제 1 뷰잉 포지션과 다른 제 2 뷰잉 포지션과 관련된 제 2 소스 뷰 픽처에 기초하여 제 2 프루닝하는 단계, 제 2 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함; 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 하나의 픽처를 선택하는 단계; 를 포함할 수 있다. 여기서, 인코딩하는 단계는 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 선택된 하나의 픽처를 더 인코딩할 수 있다.

나아가, 비디오 전송 방법은, 스파스 뷰 픽처들 내 포함된 제 2 뷰잉 포지션과 관련된 스파스 뷰 픽처에 기초하여, 스파스 뷰 픽처들 내 포함된 제 1 뷰잉 포지션과 관련된 레퍼런스 스파스 뷰 픽처(reference sparse view picture)를 프루닝(pruning)하는 단계, 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션이고, 레퍼런스 스파스 뷰 픽처를 프루닝하는 단계는 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 생성함; 및, 프루닝된 스파스 뷰 픽처로부터 레지듀얼(residual)를 검출하는 단계; 를 포함할 수 있다. 여기서, 프루닝된 스파스 뷰 픽처는 레지듀얼의 존재에 대응하여 패킹될 수도 있다.

실시예들에 따른 비디오 수신 방법은, 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계; 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계, 언패킹된 비트스트림은 시그널링 정보를 포함함; 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계; 및, 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계; 를 포함할 수 있다.

여기서, 시그널링 정보는 뷰잉 포지션 그룹 정보(viewing position group information)를 포함하고, 뷰잉 포지션 그룹 정보는 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 포함하고,

상기 비디오 수신 방법은, 언패킹된 픽처들 내에 포함된 레퍼런스 뷰 픽처(reference view picture)들 및 센터 뷰 제너레이션 정보에 기초하여 센터 뷰 픽처(center view picture)를 생성하는 단계를 포함할 수 있다. 또한, 뷰 재생성하는 단계는 레퍼런스 뷰 픽처들, 언패킹된 픽처들 내의 스파스 뷰 픽처(sparse view picture)들, 센터 뷰 픽처, 레퍼런스 뷰 정보 및 리제너레이션 정보에 기초하여 재생성된 뷰(regenerated view)를 생성할 수 있다. 또한, 뷰 합성하는 단계는 재생성된 뷰, 센터 뷰 픽처, 레퍼런스 뷰 픽처들, 프리-제너레이션 정보 및 뷰 합성 레코멘데이션 정보에 기초하여 합성된 뷰를 생성할 수 있다.

추가로, 비디오 뷰 재생성하는 단계는, 센터 뷰 픽처 및 스파스 뷰 픽처들 내에 포함된 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰 픽처에 기초하여, 제 1 뷰잉 포지션과 관련된 제 1 재생성된 뷰를 생성하는 단계; 및, 제 1 재생성된 픽처 및 센터 뷰 픽처에 기초하여, 제 2 뷰잉 포지션과 관련된 제 2 재생성된 픽처를 생성하는 단계; 를 수행할 수 있다. 여기서, 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션일 수 있다.

추가적으로, 뷰 재생성하는 단계는, 센터 뷰 픽처 및 스파스 뷰 픽처들 내에 포함된 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰에 기초하여, 제 1 뷰잉 포지션과 관련된 임의 생성 뷰(temporally generated view)를 생성하는 단계; 임의 생성 뷰로부터 제 2 뷰잉 포지션과 관련된 제 2 스파스 뷰 픽처를 추정하는 단계, 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 추정하는 단계는 프루닝된 스파스 뷰 픽처에 기초하여 제 2 스파스 뷰 픽처를 추정함; 및 상기 추정된 제 2 스파스 뷰 픽처 및 센터 뷰 픽처에 기초하여 제 2 뷰잉 포지션과 관련된 재생성된 뷰를 생성하는 단계; 를 수행할 수 있다. 또한, 뷰 재생성하는 단계는, 제 1 스파스 뷰 픽처로부터 제 2 스파스 뷰 픽처를 재생성하는 단계, 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 제 2 스파스 뷰 픽처를 재생성하는 단계는 프루닝된 스파스 뷰 픽처에 기초하여 제 2 스파스 뷰 픽처를 생성함; 및 재생성된 제 2 스파스 뷰 픽처 및 센터 뷰 픽처에 기초하여 제 재생성된 뷰를 생성하는 단계; 를 수행하여 재생성된 뷰를 생성할 수 있다. 여기서, 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다를 수 있다.

실시예들에 따른 비디오 전송 장치는, 하나의 뷰잉 포지션에 대하여 스파스 뷰 픽처를 선택함으로써 전송 장치 및 수신 장치의 송수신 환경에 대응하여 데이터의 양과 연산량을 조절하는 적응적 인터-뷰 리던던시 제거 동작을 수행할 수 있다. 따라서, 실시예들에 따른 전송 장치는 전송 장치의 송신 환경 및 수신 장치의 수신 환경을 고려하여 스파스 뷰를 선택함으로써 송수신 환경에 신속하게 대응할 수 있다.

실시예들에 따른 비디오 전송 장치는 뷰포인트의 다른 뷰잉 포지션들을 나타내는 복수의 멀티 스피리컬 이미지들을 효율적으로 제공할 수 있다.

실시예들에 따른 비디오 전송 장치는 스파스 뷰 프루닝부 및 레지듀얼 디텍션부에 의해, 불필요하거나 중복되는 정보들을 더 제거하여 실시예들에 따른 전송 장치의 데이터 송신 효율을 높일 수 있다.

실시예들에 따른 비디오 전송 장치는, 하나의 뷰잉 포지션에 대한 다양한 스파스 뷰 픽처의 오류의 양을 판단하여 오류가 적은 픽처를 선택함으로써, 수신 장치를 사용하는 사용자들(viewer)에게 정확하고 실제와 같은 가상 현실 환경을 제공할 수 있다.

실시예들에 따른 비디오 전송 장치는, 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 실시예들에 따른 비디오 수신 장치는, 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

실시예들에 따른 비디오 전송 장치는, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다.

실시예들에 따른 비디오 전송 장치는, 복수의 스파스 뷰들 간의 에러를 다시 검출하여 프루닝함으로써 디코더단으로 하여금 해당 뷰잉 포지션에 대한 정확한 뷰를 생성할 수 있는 효과를 제공한다. 또한, 실시예들에 따른 디코더단은 적은 양의 데이터의 수신으로도 실제와 같은 가상 공간을 생성함으로써 비트 효율을 높일 수 있다.

실시예들에 따른 비디오 수신 장치는 재생성된 뷰(regenerated view)들을 정확하고 효율적으로 생성할 수 있다.

실시예들에 따른 비디오 수신 장치는, 이러한 구성으로 인해 서로 다른 뷰잉 포지션에 대한 뷰들을 적은 양의 데이터로 재생성 및 합성할 수 있어 송수신 효율을 높일 수 있다.

도 1 은 실시예들에 따른 360도 비디오 제공을 위한 전체 아키텍처를 도시한 도면이다.

도 2 은 실시예들에 따른 일 측면(aspect)에 따른 360도 비디오 전송 장치를 도시한 도면이다.

도 3 은 실시예들에 따른 360도 비디오 수신 장치를 도시한 도면이다.

도 4 는 실시예들에 따른 360도 비디오 전송 장치/360도 비디오 수신 장치를 도시한 도면이다.

도 5 는 실시예들에 따른 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

도 6 는 실시예들에 따른 프로젝션 스킴들을 도시한 도면이다.

도 7 은 실시예들에 따른 타일(Tile)을 도시한 도면이다.

도 8 은 실시예들에 따른 360도 비디오 관련 메타데이터를 도시한 도면이다.

도9는 3DoF+ VR 시스템에서 추가적으로 정의되는 위치(viewpoint)와 시점(viewing position)를 나타낸다.

도10은 3DoF+ 시스템에 기반한 360도 비디오 신호처리 및 관련 전송장치/수신장치 구현 방법에 대해서 도시한다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

도15는 OMAF 구조를 나타낸다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

도17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

도18은 6DoF 비디오 서비스 제공을 위한 전송 장치의 구성을 나타낸다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

도20은 6DoF 비디오 전송/수신 장치의 구성을 나타낸다.

도21은 6DoF 공간을 나타낸다.

도 22는 실시예들에 따른 비디오 송수신 방법/장치와 연동 가능한 구조의 예시를 나타낸다.

도 23은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 블록도를 나타낸다.

도 24는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 블록도를 나타낸다.

도 25는 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 블록도를 나타낸다.

도 26은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 블록도를 나타낸다.

도 27은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 블록도를 나타낸다.

도 28은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 블록도를 나타낸다.

도 29는 실시예들에 따른 비디오 수신 장치 및/또는 실시예들에 따른 비디오 전송 장치의 소프트웨어 플랫폼을 나타낸다.

도 30은 실시예들에 따른 인코더 프리-프로세싱부의 프루닝부의 동작을 나타낸다.

도 31은 실시예들에 따른 디코더 포스트-프로세싱부의 뷰 제너레이션을 나타낸다.

도 32는 실시예들에 따른 프루닝부 및 스파스 뷰 셀렉션부를 이용한 실시예들에 따른 인코더 프리-프로세싱 스킴을 나타낸다.

도 33은 실시예들에 따른 재생성된 뷰(regenerated view)를 레퍼런스 뷰(reference view)로 사용하여 뷰 리제너레이션(view regeneration)을 수행하는 것을 나타낸다.

도 34는 실시예들에 따른 프루닝 및 스파스 뷰 프루닝을 수행하는 실시예들에 따른 인코더 프리-프로세싱부를 나타낸다.

도 35는 실시예들에 따른 뷰 리제너레이션 및/또는 스파스 뷰 리제너레이션을 이용한 실시예들에 따른 디코더 포스트-프로세싱 스킴(decoder post processing scheme)을 나타낸 것이다.

도 36은 실시예들에 따른 뷰 리제너레이션 및/또는 스파스 뷰 리제너레이션을 이용한 실시예들에 따른 디코더 포스트-프로세싱 스킴(decoder post processing scheme)을 나타낸 것이다.

도 37은 실시예들에 따른 뷰 리제너레이션 및/또는 스파스 뷰 리제너레이션을 이용한 실시예들에 따른 디코더 포스트-프로세싱 스킴(decoder post processing scheme)을 나타낸 것이다.

도 38은 실시예들에 따른 뷰 리제너레이션 및/또는 스파스 뷰 리제너레이션을 이용한 실시예들에 따른 디코더 포스트-프로세싱 스킴(decoder post processing scheme)을 나타낸 것이다.

도 39는 실시예들에 따른 스파스 뷰 리제너레이션 정보 SEI 메시지(sparse view regeneration information SEI message)의 신텍스를 나타낸다.

도 40은 실시예들에 따른 뷰잉 포지션 그룹 정보 SEI 메시지(Viewing position group information SEI message)의 신텍스(syntax)를 나타낸다.

도 41은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 블록도를 나타낸다.

도 42는 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 블록도를 나타낸다.

도 43은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 블록도를 나타낸다.

도 44는 실시예들에 따른 디코더 디코더 포스트-프로세싱부(decoder post-processing modules)의 블록도를 나타낸다.

도 45는 실시예들에 따른 디코더단의 동작 흐름을 나타낸다.

도 46은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)을 나타낸다.

도 47은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)의 동작을 나타낸다.

도 48은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)의 실시예를 나타낸다.

도 49는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 50은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 51은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 52는 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)의 실시예를 나타낸다.

도 53는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 54는 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)의 실시예를 나타낸다.

도 55는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 56은 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)의 실시예를 나타낸다.

도 57은 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 58는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 59는 실시예들에 따른 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(view regeneration)을 나타낸다.

도 60은 실시예들에 따른 비디오 전송 장치의 블록도를 나타낸다.

도 61은 실시예들에 따른 비디오 수신 장치를 나타낸다.

도 62는 실시예들에 따른 비디오 전송 방법의 흐름도를 나타낸다.

도 63은 실시예들에 따른 비디오 수신 방법의 흐름도를 나타낸다.

본 발명의 바람직한 실시예에 대해 구체적으로 설명하며, 그 예는 첨부된 도면에 나타낸다. 첨부된 도면을 참조한 아래의 상세한 설명은 본 발명의 실시예에 따라 구현될 수 있는 실시예만을 나타내기보다는 본 발명의 바람직한 실시예를 설명하기 위한 것이다. 다음의 상세한 설명은 본 발명에 대한 철저한 이해를 제공하기 위해 세부 사항을 포함한다. 그러나 본 발명이 이러한 세부 사항 없이 실행될 수 있다는 것은 당업자에게 자명하다.

본 발명에서 사용되는 대부분의 용어는 해당 분야에서 널리 사용되는 일반적인 것들에서 선택되지만, 일부 용어는 출원인에 의해 임의로 선택되며 그 의미는 필요에 따라 다음 설명에서 자세히 서술한다. 따라서 본 명세서의 실시예들은 용어의 단순한 명칭이나 의미가 아닌 용어의 의도된 의미에 근거하여 이해되어야 한다.

본 명세서의 실시예들은 사용자에게 VR (Virtual Reality, 가상현실) 을 제공하기 위하여, 360도 컨텐츠를 제공하는 방안을 제안한다. VR 이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR 은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.

360도 컨텐츠는 VR 을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360도 오디오를 포함할 수 있다. 360도 비디오는 VR 을 제공하기 위해 필요한, 동시에 모든 방향(360도) 으로 캡쳐되거나 재생되는 비디오 내지 이미지 컨텐츠를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형(Spherical)면 상에 나타내어질 수 있다. 360도 오디오 역시 VR 을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360도 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360도 컨텐츠를 이용하여 VR 경험을 소비할 수 있다. 이하, 360도 콘텐트/비디오/이미지/오디오 등은 단위(도, degree)가 생략된 360 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있고 VR 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있다.

본 명세서의 실시예들은 특히 360 비디오를 효과적으로 제공하는 방안을 제안한다. 360 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360 비디오가 캡쳐될 수 있다. 캡쳐된 360 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360 비디오가 사용자에게 제공될 수 있다.

구체적으로 360 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡쳐하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 (t1010) 과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 (t1010) 의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡쳐된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡쳐 과정에서 캡쳐와 관련된 메타데이터가 생성될 수 있다.

이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

준비 과정은 캡처된 이미지/비디오 및 캡쳐 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.

먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.

이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스트칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 매핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 (t1020) 과 같은 2D 이미지의 형태가 될 수 있다.

2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분되어질 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.

실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.

실시예에 따라 이 처리 과정은, 360 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다.2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.

실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.

전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.

프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 매핑, 프로젝션이라고 부를 수도 있다. 이 때 매핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.

렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 (t1030) 과 같은 형태를 가질 수 있다. 도시된 (t1030) 은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 (t1040) 과 같은 형태일 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 360 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360 비디오를 소비하는지, 360 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.

전술한 360 비디오 제공을 위한 전체 아키텍처 내에서, 캡쳐/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360 비디오 데이터라 부를 수 있다. 360 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.

도 2 은 본 발명의 일 측면(aspect)에 따른 360도 비디오 전송 장치를 도시한 도면이다.

일 측면에 따르면 본 명세서의 실시예들은 360 비디오 전송 장치와 관련될 수 있다. 실시예들에 따른 360 비디오 전송 장치는 전술한 준비 과정 내지 전송 과정에 관련된 동작들을 수행할 수 있다. 실시예들에 따른 360 비디오 전송 장치는 데이터 입력부, 스티처(Stitcher), 프로젝션 처리부, 리전별 패킹 처리부(도시되지 않음), 메타데이터 처리부, (송신측) 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 엘레멘트로서 포함할 수 있다.

데이터 입력부는 캡쳐된 각 시점별 이미지/비디오 들을 입력받을 수 있다. 이 시점별 이미지/비디오 들은 하나 이상의 카메라들에 의해 캡쳐된 이미지/비디오들일 수 있다. 또한 데이터 입력부는 캡쳐 과정에서 발생된 메타데이터를 입력받을 수 있다. 데이터 입력부는 입력된 시점별 이미지/비디오들을 스티처로 전달하고, 캡쳐 과정의 메타데이터를 시그널링 처리부로 전달할 수 있다.

스티처는 캡쳐된 시점별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타데이터 처리부로부터 필요한 메타데이터를 전달받아 스티칭 작업에 이용할 수 있다. 스티처는 스티칭 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 스티칭 과정의 메타데이터에는 스티칭이 수행되었는지 여부, 스티칭 타입 등의 정보들이 있을 수 있다.

프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 프로젝션 처리부는 다양한 스킴(scheme)에 따라 프로젝션을 수행할 수 있는데, 이에 대해서는 후술한다. 프로젝션 처리부는 각 시점별 360 비디오 데이터의 해당 뎁스(depth)를 고려하여 매핑을 수행할 수 있다. 프로젝션 처리부는 필요한 경우 메타데이터 처리부로부터 프로젝션에 필요한 메타데이터를 전달받아 프로젝션 작업에 이용할 수 있다. 프로젝션 처리부는 프로젝션 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 프로젝션 처리부의 메타데이터에는 프로젝션 스킴의 종류 등이 있을 수 있다.

리전별 패킹 처리부(도시되지 않음)는 전술한 리전별 패킹 과정을 수행할 수 있다. 즉, 리전별 패킹 처리부는 프로젝션된 360 비디오 데이터를 리전별로 나누고, 각 리전들을 회전, 재배열하거나, 각 리전의 레졸루션을 변경하는 등의 처리를 수행할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정이며, 리전별 패킹이 수행되지 않는 경우, 리전별 패킹 처리부는 생략될 수 있다. 리전별 패킹 처리부는 필요한 경우 메타데이터 처리부로부터 리전별 패킹에 필요한 메타데이터를 전달받아 리전별 패킹 작업에 이용할 수 있다. 리전별 패킹 처리부는 리전별 패킹 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 리전별 패킹 처리부의 메타데이터에는 각 리전의 회전 정도, 사이즈 등이 있을 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 리전별 패킹 처리부는 실시예에 따라 하나의 하드웨어 컴포넌트에서 수행될 수도 있다.

메타데이터 처리부는 캡처 과정, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타데이터들을 처리할 수 있다. 메타데이터 처리부는 이러한 메타데이터들을 이용하여 360 비디오 관련 메타데이터를 생성할 수 있다. 실시예에 따라 메타데이터 처리부는 360 비디오 관련 메타데이터를 시그널링 테이블의 형태로 생성할 수도 있다. 문맥에 따라 360 비디오 관련 메타데이터는 메타데이터 또는 360 비디오 관련 시그널링 정보라 불릴 수도 있다. 또한 메타데이터 처리부는 획득하거나 생성한 메타데이터들을 필요에 따라 360 비디오 전송 장치의 내부 엘레멘트들에 전달할 수 있다. 메타데이터 처리부는 360 비디오 관련 메타데이터가 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달할 수 있다.

데이터 인코더는 2D 이미지 상에 프로젝션된 360 비디오 데이터 및/또는 리전별 패킹된 360 비디오 데이터를 인코딩할 수 있다. 360 비디오 데이터는 다양한 포맷으로 인코딩될 수 있다.

인캡슐레이션 처리부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 파일 등의 형태로 인캡슐레이션할 수 있다. 여기서 360 비디오 관련 메타데이터는 전술한 메타데이터 처리부로부터 전달받은 것일 수 있다. 인캡슐레이션 처리부는 해당 데이터들을 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인캡슐레이션 처리부는 실시예에 따라 360 비디오 관련 메타데이터를 파일 포맷 상에 포함시킬 수 있다. 360 관련 메타데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나 파일 내에서 별도의 트랙내의 데이터로 포함될 수 있다. 실시예에 따라, 인캡슐레이션 처리부는 360 비디오 관련 메타데이터 자체를 파일로 인캡슐레이션할 수 있다.전송 처리부는 파일 포맷에 따라 인캡슐레이션된 360 비디오 데이터에 전송을 위한 처리를 가할 수 있다. 전송 처리부는 임의의 전송 프로토콜에 따라 360 비디오 데이터를 처리할 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리를 포함할 수 있다. 실시예에 따라 전송 처리부는 360 비디오 데이터 뿐 아니라, 메타데이터 처리부로부터 360 비디오 관련 메타데이터를 전달받아, 이 것에 전송을 위한 처리를 가할 수도 있다.

전송부는 전송 처리된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 방송망 및/또는 브로드밴드를 통해 전송할 수 있다. 전송부는 방송망을 통한 전송을 위한 엘레멘트 및/또는 브로드밴드를 통한 전송을 위한 엘레멘트를 포함할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 일 실시예에 의하면, 360 비디오 전송 장치는 데이터 저장부(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 데이터 저장부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 전송 처리부로 전달하기 전에 저장하고 있을 수 있다. 이 데이터들이 저장되는 형태는 ISOBMFF 등의 파일 형태일 수 있다. 실시간으로 360 비디오를 전송하는 경우에는 데이터 저장부가 필요하지 않을 수 있으나, 온 디맨드, NRT (Non Real Time), 브로드밴드 등을 통해 전달하는 경우에는 인캡슐레이션된 360 데이터가 데이터 저장부에 일정 기간 저장되었다가 전송될 수도 있다.

실시예들에 따른 360 비디오 전송 장치의 다른 실시예에 의하면, 360 비디오 전송 장치는 (송신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 네트워크 인터페이스는 실시예들에 따른 360 비디오 수신 장치로부터 피드백 정보를 전달받고, 이를 송신측 피드백 처리부로 전달할 수 있다. 송신측 피드백 처리부는 피드백 정보를 스티처, 프로젝션 처리부, 리전별 패킹 처리부, 데이터 인코더, 인캡슐레이션 처리부, 메타데이터 처리부 및/또는 전송 처리부로 전달할 수 있다. 실시예에 따라 피드백 정보는 메타데이터 처리부에 일단 전달된 후, 다시 각 내부 엘레멘트들로 전달될 수 있다. 피드백 정보를 전달받은 내부 엘레먼트들은 이 후의 360 비디오 데이터의 처리에 피드백 정보를 반영할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 리전별 패킹 처리부는 각 리전을 회전하여 2D 이미지 상에 매핑할 수 있다. 이 때 각 리전들은 서로 다른 방향, 서로 다른 각도로 회전되어 2D 이미지 상에 매핑될 수 있다. 리전의 회전은 360 비디오 데이터가 구형의 면 상에서 프로젝션 전에 인접했던 부분, 스티칭된 부분 등을 고려하여 수행될 수 있다. 리전의 회전에 관한 정보들, 즉 회전 방향, 각도 등은 360 비디오 관련 메타데이터에 의해 시그널링될 수 있다.실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각 리전 별로 다르게 인코딩을 수행할 수 있다. 데이터 인코더는 특정 리전은 높은 퀄리티로, 다른 리전은 낮은 퀄리티로 인코딩을 수행할 수 있다. 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 데이터 인코더로 전달하여, 데이터 인코더가 리전별 차등화된 인코딩 방법을 사용하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 퀄리티(UHD 등) 로 인코딩을 수행할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 리전 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 리전 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 리전 별로 전달되는 데이터의 강건성(robustenss) 을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 리전별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

전술한 실시예들에 따른 360 비디오 전송 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 전송 장치에 추가될 수도 있다.

도 3 은 본 발명의 다른 측면에 따른 360도 비디오 수신 장치를 도시한 도면이다.

다른 측면에 따르면 본 명세서의 실시예들은 360 비디오 수신 장치와 관련될 수 있다. 실시예들에 따른 360 비디오 수신 장치는 전술한 프로세싱 과정 및/또는 렌더링 과정에 관련된 동작들을 수행할 수 있다. 실시예들에 따른 360 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 데이터 디코더, 메타데이터 파서, (수신측) 피드백 처리부, 리-프로젝션 처리부 및/또는 렌더러를 내/외부 엘레멘트로서 포함할 수 있다.

수신부는 실시예들에 따른 360 비디오 전송 장치가 전송한 360 비디오 데이터를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 360 비디오 데이터를 수신할 수도 있고, 브로드밴드를 통하여 360 비디오 데이터를 수신할 수도 있다.

수신 처리부는 수신된 360 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 360 비디오 데이터는 디캡슐레이션 처리부로 전달하고, 획득한 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 수신 처리부가 획득하는 360 비디오 관련 메타데이터는 시그널링 테이블의 형태일 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 360 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일들을 디캡슐레이션하여, 360 비디오 데이터 내지 360 비디오 관련 메타데이터를 획득할 수 있다. 획득된 360 비디오 데이터는 데이터 디코더로, 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 디캡슐레이션 처리부가 획득하는 360 비디오 관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 파서로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다.

데이터 디코더는 360 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타데이터 파서로부터 디코딩에 필요한 메타데이터를 전달받을 수도 있다. 데이터 디코딩 과정에서 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달될 수도 있다.

메타데이터 파서는 360 비디오 관련 메타데이터에 대한 파싱/디코딩을 수행할 수 있다. 메타데이터 파서는 획득한 메타데이터를 데이터 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부 및/또는 렌더러로 전달할 수 있다.

리-프로젝션 처리부는 디코딩된 360 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 360 비디오 데이터를 3D 공간으로 리-프로젝션할 수 있다. 3D 공간은 사용되는 3D 모델에 따라 다른 형태를 가질 수 있다. 리-프로젝션 처리부는 메타데이터 파서로부터 리-프로젝션에 필요한 메타데이터를 전달받을 수도 있다. 예를 들어 리-프로젝션 처리부는 사용되는 3D 모델의 타입 및 그 세부 정보에 대한 정보를 메타데이터 파서로부터 전달받을 수 있다. 실시예에 따라 리-프로젝션 처리부는 리-프로젝션에 필요한 메타데이터를 이용하여, 3D 공간 상의 특정 영역에 해당하는 360 비디오 데이터만을 3D 공간으로 리-프로젝션할 수도 있다.

렌더러는 리-프로젝션된 360 비디오 데이터를 렌더링할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간상에 렌더링된다고 표현할 수도 있는데, 이처럼 두 과정이 한번에 일어나는 경우 리-프로젝션 처리부와 렌더러는 통합되어, 렌더러에서 이 과정들이 모두 진행될 수 있다. 실시예에 따라 렌더러는 사용자의 시점 정보에 따라 사용자가 보고 있는 부분만을 렌더링할 수도 있다.

사용자는 VR 디스플레이 등을 통하여 렌더링된 360 비디오의 일부 영역을 볼 수 있다. VR 디스플레이는 360 비디오를 재생하는 장치로서, 360 비디오 수신 장치에 포함될 수도 있고(tethered), 별도의 장치로서 360 비디오 수신 장치에 연결될 수도 있다(un-tethered).

실시예들에 따른 360 비디오 수신 장치의 일 실시예에 의하면, 360 비디오 수신 장치는 (수신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 처리부 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 뷰포트 정보, 헤드 오리엔테이션 정보, 게이즈(Gaze) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 수신측 피드백 처리부로부터 전달받고, 이를 360 비디오 전송 장치로 전송할 수 있다.

전술한 바와 같이, 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 수신측 피드백 처리부는 획득한 피드백 정보를 360 비디오 수신 장치의 내부 엘레멘트들로 전달하여, 렌더링 등의 과정에 반영되게 할 수 있다. 수신측 피드백 처리부는 피드백 정보를 렌더러, 리-프로젝션 처리부, 데이터 디코더 및/또는 디캡슐레이션 처리부로 전달할 수 있다. 예를 들어, 렌더러는 피드백 정보를 활용하여 사용자가 보고 있는 영역을 우선적으로 렌더링할 수 있다. 또한 디캡슐레이션 처리부, 데이터 디코더 등은 사용자가 보고 있는 영역 내지 보게될 영역을 우선적으로 디캡슐레이션, 디코딩할 수 있다.

전술한 실시예들에 따른 360 비디오 수신 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 수신 장치에 추가될 수도 있다.

본 발명의 또 다른 측면은 360 비디오를 전송하는 방법 및 360 비디오를 수신하는 방법과 관련될 수 있다. 실시예들에 따른 360 비디오를 전송/수신하는 방법은, 각각 전술한 실시예들에 따른 360 비디오 전송/수신 장치 또는 그 장치의 실시예들에 의해 수행될 수 있다.

전술한 실시예들에 따른 360 비디오 전송/수신 장치, 전송/수신 방법의 각각의 실시예 및 그 내/외부 엘리멘트 각각의 실시예들을 서로 조합될 수 있다. 예를 들어 프로젝션 처리부의 실시예들과, 데이터 인코더의 실시예들은 서로 조합되어, 그 경우의 수만큼의 360 비디오 전송 장치의 실시예들을 만들어 낼 수 있다. 이렇게 조합된 실시예들 역시 본 발명의 범위에 포함된다.

도 4 는 본 발명의 다른 실시예에 따른 360도 비디오 전송 장치/360도 비디오 수신 장치를 도시한 도면이다.

전술한 바와 같이, 도시된 (a) 와 같은 아키텍처에 의하여 360 컨텐츠가 제공될 수 있다. 360 컨텐츠는 파일 형태로 제공되거나, DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있다. 여기서 360 컨텐츠는 VR 컨텐츠로 불릴 수 있다.

전술한 바와 같이 360 비디오 데이터 및/또는 360 오디오 데이터가 획득될 수 있다(Acquisition).

360 오디오 데이터는 오디오 프리-프로세싱 과정(Audio Preprocessing), 오디오 인코딩 과정(Audio encoding)을 거칠 수 있다. 이 과정에서 오디오 관련 메타데이터가 생성될 수 있으며, 인코딩된 오디오와 오디오 관련 메타데이터는 전송을 위한 처리(file/segment encapsulation)를 거칠 수 있다.

360 비디오 데이터는 전술한 것과 같은 과정을 거칠 수 있다. 360 비디오 전송 장치의 스티처는 360 비디오 데이터에 스티칭을 수행할 수 있다(Visual stitching). 이 과정은 실시예에 따라 생략되고 수신측에서 수행될 수도 있다. 360 비디오 전송 장치의 프로젝션 처리부는 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다(Projection and mapping(packing)).

이 스티칭 및 프로젝션 과정은 (b) 에 구체적으로 도시되었다. 도시된 (b) 에서, 360 비디오 데이터(Input Images) 를 전달받으면, 이에 스티칭 및 프로젝션이 수행될 수 있다. 프로젝션 과정은 구체적으로 스티칭된 360 비디오 데이터를 3D 공간 상으로 프로젝션하고, 프로젝션된 360 비디오 데이터가 2D 이미지 상으로 배열되는 것으로 볼 수 있다. 본 명세서에서 이 과정을 360 비디오 데이터를 2D 이미지 상으로 프로젝션한다고 표현할 수도 있다. 여기서 3D 공간은 구(sphere) 또는 큐브(cube) 등일 수 있다. 이 3D 공간은 수신측에서 리-프로젝션에 사용되는 3D 공간과 같을 수도 있다.

2D 이미지는 프로젝티드 프레임(C, Projected frame) 이라 불릴 수도 있다. 이 2D 이미지에 리전별 패킹(Region-wise packing) 이 선택적으로 더 수행될 수도 있다. 리전별 패킹이 수행되는 경우, 각 리전(Region)의 위치, 형태, 크기를 지시함으로써, 2D 이미지 상의 리전들이 팩드 프레임(D, packed frame) 상으로 매핑될 수 있다. 리전별 패킹이 수행되지 않는 경우, 프로젝티드 프레임은 팩드 프레임과 같을 수 있다. 리전에 대해서는 후술한다. 프로젝션 과정 및 리전별 패킹 과정을, 360 비디오 데이터의 각 리전들이 2D 이미지 상에 프로젝션된다고 표현할 수도 있다. 설계에 따라, 360 비디오 데이터는 중간 과정 없이 팩드 프레임으로 바로 변환될 수도 있다.

도시된 (a) 에서, 프로젝션된 360 비디오 데이터는 이미지 인코딩 내지 비디오 인코딩될 수 있다. 같은 컨텐트라도 다른 시점(viewpoints)별로 존재할 수 있으므로, 같은 컨텐트가 서로 다른 비트 스트림으로 인코딩될 수도 있다. 인코딩된 360 비디오 데이터는 전술한 인캡슐레이션 처리부에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인캡슐레이션 처리부는 인코딩된 360 비디오 데이터를 세그먼트들로 처리할 수 있다. 세그먼트들은 DASH 에 기반한 전송을 위한 개별 트랙에 포함될 수 있다.

360 비디오 데이터의 처리와 함께, 전술한 것과 같이 360 비디오 관련 메타데이터가 생성될 수 있다. 이 메타데이터는 비디오 스트림 혹은 파일 포맷에 포함되어 전달될 수 있다. 이 메타데이터는 인코딩 과정이나 파일 포맷 인캡슐레이션, 전송을 위한 처리 등과 같은 과정에도 쓰일 수 있다.

360 오디오/비디오 데이터는 전송 프로토콜에 따라 전송을 위한 처리를 거치고, 이후 전송될 수 있다. 전술한 360 비디오 수신 장치는 이를 방송망 또는 브로드밴드를 통해 수신할 수 있다.

도시된 (a) 에서 VR 서비스 플랫폼(VR service platform) 은 전술한 360 비디오 수신 장치의 일 실시예에 해당할 수 있다. 도시된 (a) 에서 스피커/헤드폰(Loudspeakers/headphones), 디스플레이(Display), 헤드/아이 트랙킹 컴포넌트(Head/eye tracking) 는 360 비디오 수신 장치의 외부 장치 내지 VR 어플리케이션에 의해 수행되는 것으로 도시되었는데, 실시예에 따라 360 비디오 수신 장치는 이 들을 모두 포함할 수도 있다. 실시예에 따라 헤드/아이 트랙킹 컴포넌트는 전술한 수신측 피드백 처리부에 해당할 수 있다.

360 비디오 수신 장치는 360 오디오/비디오 데이터에 수신을 위한 처리(File/segment decapsulation)를 수행할 수 있다. 360 오디오 데이터는 오디오 디코딩(Audio decoding), 오디오 렌더링(Audio rendering) 과정을 거쳐 스피커/헤드폰을 통해 사용자에게 제공될 수 있다.

360 비디오 데이터는 이미지 디코딩 내지 비디오 디코딩, 렌더링(Visual rendering) 과정을 거쳐 디스플레이를 통해 사용자에게 제공될 수 있다. 여기서 디스플레이는 VR 을 지원하는 디스플레이거나 일반 디스플레이일 수 있다.

전술한 바와 같이 렌더링 과정은 구체적으로, 360 비디오 데이터가 3D 공간 상에 리-프로젝션되고, 리-프로젝션된 360 비디오 데이터가 렌더링되는 것으로 볼 수 있다. 이를 360 비디오 데이터가 3D 공간 상에 렌더링된다고 표현할 수도 있다.

헤드/아이 트랙킹 컴포넌트는 사용자의 헤드 오리엔테이션 정보, 게이즈 정보, 뷰포트(Viewport) 정보 등을 획득, 처리할 수 있다. 이에 대해서는 전술하였다.

수신측에서는 전술한 수신측 과정들과 통신하는 VR 어플리케이션이 존재할 수 있다.

도 5 는 본 발명의 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

본 발명에서, 3D 공간에서의 특정 지점, 위치, 방향, 간격, 영역 등을 표현하기 위하여 비행기 주축 개념이 사용될 수 있다.

즉, 본 발명에서 프로젝션 전 또는 리-프로젝션 후의 3D 공간에 대해 기술하고, 그에 대한 시그널링을 수행하기 위하여 비행기 주축 개념이 사용될 수 있다. 실시예에 따라 X, Y, Z 축 개념 또는 구 좌표계를 이용한 방법이 사용될 수도 있다.

비행기는 3 차원으로 자유롭게 회전할 수 있다. 3차원을 이루는 축을 각각 피치(pitch) 축, 야(yaw) 축 및 롤(roll) 축이라고 한다. 본 명세서에서 이 들을 줄여서 pitch, yaw, roll 내지 pitch 방향, yaw 방향, roll 방향이라고 표현할 수도 있다.

Pitch 축은 비행기의 앞코가 위/아래로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 pitch 축은 비행기의 날개에서 날개로 이어지는 축을 의미할 수 있다.

Yaw 축은 비행기의 앞코가 좌/우로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 yaw 축은 비행기의 위에서 아래로 이어지는 축을 의미할 수 있다.

Roll 축은 도시된 비행기 주축 개념에서 비행기의 앞코에서 꼬리로 이어지는 축으로서, roll 방향의 회전이란 roll 축을 기준으로 한 회전을 의미할 수 있다.

전술한 바와 같이, pitch, yaw, roll 개념을 통해 본 발명에서의 3D 공간이 기술될 수 있다.

도 6 는 본 발명의 일 실시예에 따른 프로젝션 스킴들을 도시한 도면이다.

전술한 바와 같이 실시예들에 따른 360 비디오 전송 장치의 프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 이 과정에서 다양한 프로젝션 스킴들이 활용될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 큐빅 프로젝션(Cubic Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 예를 들어 스티칭된 360 비디오 데이터는 구형의 면 상에 나타내어질 수 있다. 프로젝션 처리부는 이러한 360 비디오 데이터를 큐브(Cube, 정육면체) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 큐브의 각 면에 대응되어, 2D 이미지 상에 (a) 좌측 또는 (a) 우측과 같이 프로젝션될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 실린더형 프로젝션(Cylindrical Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 실린더(Cylinder) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 실린더의 옆면(side)과 윗면(top), 바닥면(bottom) 에 각각 대응되어, 2D 이미지 상에 (b) 좌측 또는 (b) 우측과 같이 프로젝션될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 피라미드 프로젝션(Pyramid Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 피라미드 형태로 보고, 각 면을 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 피라미드의 바닥면(front), 피라미드의 4방향의 옆면(Left top, Left bottom, Right top, Right bottom) 에 각각 대응되어, 2D 이미지 상에 (c) 좌측 또는 (c) 우측과 같이 프로젝션될 수 있다.

실시예에 따라 프로젝션 처리부는 전술한 스킴들 외에 등정방형 프로젝션(Equirectangular Projection) 스킴, 파노라믹 프로젝션(Panoramic Projection) 스킴 등을 이용하여 프로젝션을 수행할 수도 있다.

전술한 바와 같이 리전(Region) 이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은 프로젝션 스킴에 따라 프로젝션된 2D 이미지 상의 각 면들과 일치할 필요는 없다. 그러나 실시예에 따라, 프로젝션된 2D 이미지 상의 각 면들이 리전과 대응되도록 리전이 구분되어, 리전별 패킹이 수행될 수도 있다. 실시예에 따라 복수개의 면들이 하나의 리전에 대응될 수도 있고, 하나의 면이 복수개의 리전에 대응되게 리전이 구분될 수도 있다. 이 경우, 리전은 프로젝션 스킴에 따라 달라질 수 있다. 예를 들어 (a) 에서 정육면체의 각 면들(top, bottom, front, left, right, back) 은 각각 리전일 수 있다. (b) 에서 실린더의 옆면(side), 윗면(top), 바닥면(bottom) 은 각각 리전일 수 있다. (c) 에서 피라미드의 바닥면(front), 4방향 옆면(Left top, Left bottom, Right top, Right bottom) 들은 각각 리전일 수 있다.

도 7 은 본 발명의 일 실시예에 따른 타일(Tile)을 도시한 도면이다.

2D 이미지에 프로젝션된 360 비디오 데이터 또는 리전별 패킹까지 수행된 360 비디오 데이터는 하나 이상의 타일로 구분될 수 있다. 도시된 (a) 는 하나의 2D 이미지가 16 개의 타일로 나뉘어진 형태를 도시하고 있다. 여기서 2D 이미지란 전술한 프로젝티드 프레임 내지는 팩드 프레임일 수 있다. 실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각각의 타일을 독립적으로 인코딩할 수 있다.

전술한 리전별 패킹과 타일링(Tiling)은 구분될 수 있다. 전술한 리전별 패킹은 코딩 효율을 높이기 위해 또는 레졸루션을 조정하기 위하여 2D 이미지상에 프로젝션된 360 비디오 데이터를 리전으로 구분하여 처리하는 것을 의미할 수 있다. 타일링은 데이터 인코더가 프로젝티드 프레임 내지는 팩드 프레임을 타일이라는 구획별로 나누고, 해당 타일들 별로 독립적으로 인코딩을 수행하는 것을 의미할 수 있다. 360 비디오가 제공될 때, 사용자는 360 비디오의 모든 부분을 동시에 소비하지 않는다. 타일링은 제한된 밴드위스(bandwidth)상에서 사용자가 현재 보는 뷰포트 등 중요 부분 내지 일정 부분에 해당하는 타일만을 수신측으로 전송 혹은 소비하는 것을 가능케할 수 있다. 타일링을 통해 제한된 밴드위스가 더 효율적으로 활용될 수 있고, 수신측에서도 모든 360 비디오 데이터를 한번에 다 처리하는 것에 비하여 연산 부하를 줄일 수 있다.

리전과 타일은 구분되므로, 두 영역이 같을 필요는 없다. 그러나 실시예에 따라 리전과 타일은 같은 영역을 지칭할 수도 있다. 실시예에 따라 타일에 맞추어 리전별 패킹이 수행되어 리전과 타일이 같아질 수 있다. 또한 실시예에 따라, 프로젝션 스킴에 따른 각 면과 리전이 같은 경우, 프로젝션 스킴에 따른 각 면, 리전, 타일이 같은 영역을 지칭할 수도 있다. 문맥에 따라 리전은 VR 리전, 타일을 타일 리전으로 불릴 수도 있다.

ROI (Region of Interest) 는 360 컨텐츠 제공자가 제안하는, 사용자들의 관심 영역을 의미할 수 있다. 360 컨텐츠 제공자는 360 비디오를 제작할 때, 어느 특정 영역을 사용자들이 관심있어 할 것으로 보고, 이를 고려하여 360 비디오를 제작할 수 있다. 실시예에 따라 ROI 는 360 비디오의 컨텐츠 상, 중요한 내용이 재생되는 영역에 해당할 수 있다.

실시예들에 따른 360 비디오 전송/수신 장치의 또 다른 실시예에 의하면, 수신측 피드백 처리부는 뷰포트 정보를 추출, 수집하여 이를 송신측 피드백 처리부로 전달할 수 있다. 이 과정에서 뷰포트 정보는 양 측의 네트워크 인터페이스를 이용해 전달될 수 있다. 도시된 (a) 의 2D 이미지에서 뷰포트 (t6010) 가 표시되었다. 여기서 뷰포트 는 2D 이미지 상의 9 개의 타일에 걸쳐 있을 수 있다.

이 경우 360 비디오 전송 장치는 타일링 시스템을 더 포함할 수 있다. 실시예에 따라 타일링 시스템은 데이터 인코더 다음에 위치할 수도 있고(도시된 (b)), 전술한 데이터 인코더 내지 전송 처리부 내에 포함될 수도 있고, 별개의 내/외부 엘리먼트로서 360 비디오 전송 장치에 포함될 수 있다.

타일링 시스템은 송신측 피드백 처리부로부터 뷰포트 정보를 전달받을 수 있다. 타일링 시스템은 뷰포트 영역이 포함되는 타일만을 선별하여 전송할 수 있다. 도시된 (a) 의 2D 이미지에서 총 16 개의 타일 중 뷰포트 영역(t6010) 을 포함하는 9 개의 타일들만이 전송될 수 있다. 여기서 타일링 시스템은 브로드밴드를 통한 유니캐스트 방식으로 타일들을 전송할 수 있다. 사용자에 따라 뷰포트 영역이 다르기 때문이다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 퀄리티로 인코딩을 수행할 수 있다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 메타데이터 처리부로 전달할 수 있다. 메타데이터 처리부는 뷰포트 영역과 관련된 메타데이터 를 360 비디오 전송 장치의 각 내부 엘레먼트로 전달해주거나, 360 비디오 관련 메타데이터에 포함시킬 수 있다.

이러한 타일링 방식을 통하여, 전송 밴드위스(bandwidth)가 절약될 수 있으며, 타일 별로 차등화된 처리를 수행하여 효율적 데이터 처리/전송이 가능해질 수 있다.

전술한 뷰포트 영역과 관련된 실시예들은 뷰포트 영역이 아닌 다른 특정 영역들에 대해서도 유사한 방식으로 적용될 수 있다. 예를 들어, 전술한 게이즈 분석을 통해 사용자들이 주로 관심있어 하는 것으로 판단된 영역, ROI 영역, 사용자가 VR 디스플레이를 통해 360 비디오를 접할 때 처음으로 재생되는 영역(초기 시점, Initial Viewpoint) 등에 대해서도, 전술한 뷰포트 영역과 같은 방식의 처리들이 수행될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 타일 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 타일 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 타일 별로 전달되는 데이터의 강건성(robustenss)을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 타일별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

도 8 은 본 발명의 일 실시예에 따른 360도 비디오 관련 메타데이터를 도시한 도면이다.

전술한 360 비디오 관련 메타데이터는 360 비디오에 대한 다양한 메타데이터를 포함할 수 있다. 문맥에 따라, 360 비디오 관련 메타데이터는 360 비디오 관련 시그널링 정보라고 불릴 수도 있다. 360 비디오 관련 메타데이터는 별도의 시그널링 테이블에 포함되어 전송될 수도 있고, DASH MPD 내에 포함되어 전송될 수도 있고, ISOBMFF 등의 파일 포맷에 box 형태로 포함되어 전달될 수도 있다. 360 비디오 관련 메타데이터가 box 형태로 포함되는 경우 파일, 프래그먼트, 트랙, 샘플 엔트리, 샘플 등등 다양한 레벨에 포함되어 해당되는 레벨의 데이터에 대한 메타데이터를 포함할 수 있다.

실시예에 따라, 후술하는 메타데이터의 일부는 시그널링 테이블로 구성되어 전달되고, 나머지 일부는 파일 포맷 내에 box 혹은 트랙 형태로 포함될 수도 있다.

실시예들에 따른 360 비디오 관련 메타데이터의 일 실시예에 의하면, 360 비디오 관련 메타데이터는 프로젝션 스킴 등에 관한 기본 메타데이터, 스테레오스코픽(stereoscopic) 관련 메타데이터, 초기 시점(Initial View/Initial Viewpoint) 관련 메타데이터, ROI 관련 메타데이터, FOV (Field of View) 관련 메타데이터 및/또는 크롭된 영역(cropped region) 관련 메타데이터를 포함할 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 메타데이터를 더 포함할 수 있다.

실시예들에 따른 360 비디오 관련 메타데이터의 실시예들은 전술한 기본 메타데이터, 스테레오스코픽 관련 메타데이터, 초기 시점 관련 메타데이터, ROI 관련 메타데이터, FOV 관련 메타데이터, 크롭된 영역 관련 메타데이터 및/또는 이후 추가될 수 있는 메타데이터들 중 적어도 하나 이상을 포함하는 형태일 수 있다. 실시예들에 따른 360 비디오 관련 메타데이터의 실시예들은, 각각 포함하는 세부 메타데이터들의 경우의 수에 따라 다양하게 구성될 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 정보들을 더 포함할 수도 있다.

기본 메타데이터에는 3D 모델 관련 정보, 프로젝션 스킴 관련 정보 등이 포함될 수 있다. 기본 메타데이터에는 vr_geometry 필드, projection_scheme 필드 등이 포함될 수 있다. 실시예에 따라 기본 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

vr_geometry 필드는 해당 360 비디오 데이터가 지원하는 3D 모델의 타입을 지시할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간 상에 리-프로젝션되는 경우, 해당 3D 공간은 vr_geometry 필드가 지시하는 3D 모델에 따른 형태를 가질 수 있다. 실시예에 따라, 렌더링시에 사용되는 3D 모델은 vr_geometry 필드가 지시하는 리-프로젝션에 사용되는 3D 모델과 다를 수도 있다. 이 경우, 기본 메타데이터는 렌더링시에 사용되는 3D 모델을 지시하는 필드를 더 포함할 수도 있다. 해당 필드가 0, 1, 2, 3 의 값을 가지는 경우 3D 공간은 각각 구형(Sphere), 큐브(Cube), 실린더(Cylinder), 피라미드(Pyramid)의 3D 모델을 따를 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 지시되는 3D 모델에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 3D 모델에 대한 구체적인 정보란 예를 들어 구형의 반지름 정보, 실린더의 높이 정보 등을 의미할 수 있다. 본 필드는 생략될 수 있다.

projection_scheme 필드는 해당 360 비디오 데이터가 2D 이미지 상에 프로젝션될 때 사용된 프로젝션 스킴을 지시할 수 있다. 해당 필드가 0, 1, 2, 3, 4, 5 의 값을 가지는 경우, 각각 등정방형 프로젝션(Equirectangular Projection) 스킴, 큐빅 프로젝션 스킴, 실린더형 프로젝션 스킴, 타일-베이스드(Tile-based) 프로젝션 스킴, 피라미드 프로젝션 스킴, 파노라믹 프로젝션 스킴이 사용되었을 수 있다. 해당 필드가 6 의 값을 가지는 경우는, 360 비디오 데이터가 스티칭 없이 바로 2D 이미지 상에 프로젝션된 경우일 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 특정되는 프로젝션 스킴에 의해 발생한 리전(Region)에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 리전에 대한 구체적인 정보란 예를 들어 리전의 회전 여부, 실린더의 윗면(top) 리전의 반지름 정보 등을 의미할 수 있다.

스테레오스코픽 관련 메타데이터는 360 비디오 데이터의 3D 관련 속성들에 대한 정보들을 포함할 수 있다. 스테레오스코픽 관련 메타데이터는 is_stereoscopic 필드 및/또는 stereo_mode 필드를 포함할 수 있다. 실시예에 따라 스테레오스코픽 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_stereoscopic 필드는 해당 360 비디오 데이터가 3D 를 지원하는지 여부를 지시할 수 있다. 해당 필드가 1 이면 3D 지원, 0 이면 3D 미지원을 의미할 수 있다. 본 필드는 생략될 수 있다.

stereo_mode 필드는 해당 360 비디오가 지원하는 3D 레이아웃을 지시할 수 있다. 본 필드만으로 해당 360 비디오가 3D 를 지원하는지 여부를 지시할 수도 있는데, 이 경우 전술한 is_stereoscopic 필드는 생략될 수 있다. 본 필드 값이 0 인 경우, 해당 360 비디오는 모노(mono) 모드일 수 있다. 즉 프로젝션된 2D 이미지는 하나의 모노 뷰(mono view) 만을 포함할 수 있다. 이 경우 해당 360 비디오는 3D 를 지원하지 않을 수 있다.

본 필드 값이 1, 2 인 경우, 해당 360 비디오는 각각 좌우(Left-Right) 레이아웃, 상하(Top-Bottom) 레이아웃에 따를 수 있다. 좌우 레이아웃, 상하 레이아웃은 각각 사이드-바이-사이드 포맷, 탑-바텀 포맷으로 불릴 수도 있다. 좌우 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 좌/우로 위치할 수 있다. 상하 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 위/아래로 위치할 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use).

초기 시점 관련 메타데이터는 사용자가 360 비디오를 처음 재생했을 때 보게되는 시점(초기 시점)에 대한 정보를 포함할 수 있다. 초기 시점 관련 메타데이터는 initial_view_yaw_degree 필드, initial_view_pitch_degree 필드 및/또는 initial_view_roll_degree 필드를 포함할 수 있다. 실시예에 따라 초기 시점 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

initial_view_yaw_degree 필드, initial_view_pitch_degree 필드, initial_view_roll_degree 필드는 해당 360 비디오 재생 시의 초기 시점을 나타낼 수 있다. 즉, 재생시 처음 보여지는 뷰포트의 정중앙 지점이, 이 세 필드들에 의해 나타내어질 수 있다. 각 필드는 그 정중앙 지점이 위치를 yaw, pitch, roll 축을 기준으로 회전된 방향(부호) 및 그 정도(각도)로 나타낼 수 있다. 이 때 FOV 에 따라 처음 재생시 보여지게 되는 뷰포트가 결정될 수 있다. FOV 를 통하여, 지시된 초기 시점을 기준으로 한, 초기 뷰포트의 가로길이 및 세로길이(width, height) 가 결정될 수 있다. 즉, 이 세 필드들 및 FOV 정보를 이용하여, 360 비디오 수신 장치는 사용자에게 360 비디오의 일정 영역을 초기 뷰포트로서 제공할 수 있다.

실시예에 따라, 초기 시점 관련 메타데이터가 지시하는 초기 시점은, 장면(scene) 별로 변경될 수 있다. 즉, 360 컨텐츠의 시간적 흐름에 따라 360 비디오의 장면이 바뀌게 되는데, 해당 360 비디오의 장면마다 사용자가 처음 보게되는 초기 시점 내지 초기 뷰포트가 변경될 수 있다. 이 경우, 초기 시점 관련 메타데이터는 각 장면별로의 초기 시점을 지시할 수 있다. 이를 위해 초기 시점 관련 메타데이터는, 해당 초기 시점이 적용되는 장면을 식별하는 장면(scene) 식별자를 더 포함할 수도 있다. 또한 360 비디오의 장면별로 FOV 가 변할 수도 있으므로, 초기 시점 관련 메타데이터는 해당 장면에 해당하는 FOV 를 나타내는 장면별 FOV 정보를 더 포함할 수도 있다.

ROI 관련 메타데이터는 전술한 ROI 에 관련된 정보들을 포함할 수 있다. ROI 관련 메타데이터는, 2d_roi_range_flag 필드 및/또는 3d_roi_range_flag 필드를 포함할 수 있다. 두 필드는 각각 ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는지, 3D 공간을 기준으로 ROI 를 표현하는 필드들을 포함하는지 여부를 지시할 수 있다. 실시예에 따라 ROI 관련 메타데이터는, ROI 에 따른 차등 인코딩 정보, ROI 에 따른 차등 전송처리 정보 등 추가적인 정보들을 더 포함할 수도 있다.

ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드, min_width 필드, max_width 필드, min_height 필드, max_height 필드, min_x 필드, max_x 필드, min_y 필드 및/또는 max_y 필드를 포함할 수 있다.

min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드는 ROI 의 좌측 상단 끝의 좌표의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 좌상단 끝의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다.

min_width 필드, max_width 필드, min_height 필드, max_height 필드는 ROI 의 가로 크기(width), 세로 크기(height)의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 가로 크기의 최소값, 가로 크기의 최대값, 세로 크기의 최소값, 세로 크기의 최대값을 나타낼 수 있다.

min_x 필드, max_x 필드, min_y 필드, max_y 필드는 ROI 내의 좌표들의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 ROI 내 좌표들의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다. 이 필드들은 생략될 수 있다.

ROI 관련 메타데이터가 3D 랜더링 공간 상의 좌표 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드, min_field_of_view 필드 및/또는 max_field_of_view 필드를 포함할 수 있다.

min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드는 ROI 가 3D 공간상에서 차지하는 영역을 yaw, pitch, roll 의 최소/최대값으로 나타낼 수 있다. 이 필드들은 차례로 yaw 축 기준 회전량의 최소값, yaw 축 기준 회전량의 최대값, pitch 축 기준 회전량의 최소값, pitch 축 기준 회전량의 최대값, roll 축 기준 회전량의 최소값, roll 축 기준 회전량의 최대값을 나타낼 수 있다.

min_field_of_view 필드, max_field_of_view 필드는 해당 360 비디오 데이터의 FOV 의 최소/최대값을 나타낼 수 있다. FOV 는 360 비디오의 재생시 한번에 디스플레이되는 시야범위를 의미할 수 있다. min_field_of_view 필드, max_field_of_view 필드는 각각 FOV 의 최소값, 최대값을 나타낼 수 있다. 이 필드들은 생략될 수 있다. 이 필드들은 후술할 FOV 관련 메타데이터에 포함될 수도 있다.

FOV 관련 메타데이터는 전술한 FOV 에 관련한 정보들을 포함할 수 있다. FOV 관련 메타데이터는 content_fov_flag 필드 및/또는 content_fov 필드를 포함할 수 있다. 실시예에 따라 FOV 관련 메타데이터는 전술한 FOV 의 최소/최대값 관련 정보 등 추가적인 정보들을 더 포함할 수도 있다.

content_fov_flag 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보가 존재하는지 여부를 지시할 수 있다. 본 필드값이 1인 경우, content_fov 필드가 존재할 수 있다.

content_fov 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보를 나타낼 수 있다. 실시예에 따라 해당 360 비디오 수신 장치의 수직(vertical) 혹은 수평(horizontal) FOV 에 따라, 360 영상 중에서 사용자에게 한번에 디스플레이되는 영역이 결정될 수 있다. 혹은 실시예에 따라 본 필드의 FOV 정보를 반영하여 사용자에게 한번에 디스플레이되는 360 비디오의 영역이 결정될 수도 있다.

크롭된 영역 관련 메타데이터는 이미지 프레임 상에서 실제 360 비디오 데이터를 포함하는 영역에 대한 정보를 포함할 수 있다. 이미지 프레임은 실제 360 비디오 데이터 프로젝션된 액티브 비디오 영역(Active Video Area)과 그렇지 않은 영역을 포함할 수 있다. 이 때 액티브 비디오 영역은 크롭된 영역 또는 디폴트 디스플레이 영역이라고 칭할 수 있다. 이 액티브 비디오 영역은 실제 VR 디스플레이 상에서 360 비디오로서 보여지는 영역으로서, 360 비디오 수신 장치 또는 VR 디스플레이는 액티브 비디오 영역만을 처리/디스플레이할 수 있다. 예를 들어 이미지 프레임의 종횡비(aspect ratio) 가 4:3 인 경우 이미지 프레임의 윗 부분 일부와 아랫부분 일부를 제외한 영역만 360 비디오 데이터를 포함할 수 있는데, 이 부분을 액티브 비디오 영역이라고 할 수 있다.

크롭된 영역 관련 메타데이터는 is_cropped_region 필드, cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드 및/또는 cr_region_height 필드를 포함할 수 있다. 실시예에 따라 크롭된 영역 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_cropped_region 필드는 이미지 프레임의 전체 영역이 360 비디오 수신 장치 내지 VR 디스플레이에 의해 사용되는지 여부를 나타내는 플래그일 수 있다. 즉, 본 필드는 이미지 프레임 전체가 액티브 비디오 영역인지 여부를 지시할 수 있다. 이미지 프레임의 일부만이 액티브 비디오 영역인 경우, 하기의 4 필드가 더 추가될 수 있다.

cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드, cr_region_height 필드는 이미지 프레임 상에서 액티브 비디오 영역을 나타낼 수 있다. 이 필드들은 각각 액티브 비디오 영역의 좌상단의 x 좌표, 액티브 비디오 영역의 좌상단의 y 좌표, 액티브 비디오 영역의 가로 길이(width), 액티브 비디오 영역의 세로 길이(height) 를 나타낼 수 있다. 가로 길이와 세로 길이는 픽셀을 단위로 나타내어질 수 있다.

전술한 바와 같이, 360도 비디오 관련 시그널링 정보 또는 메타데이터는 임의로 정의된 시그널링 테이블에 포함될 수 있고, ISOBMFF 또는 Common File Format 등의 파일 포맷에 box형태로 포함될 수도 있으며, DASH MPD 내에 포함되어 전송될 수도 있다. 또한, 360도 미디어 데이터는 이러한 파일 포맷 또는 DASH segment에 포함되어 전송될 수도 있다.

본 명세서의 실시예들 은360 비디오 기반 VR 시스템은 전술한 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 이러한 방법을 3DoF (three degree of freedom) plus라고 명명할 수 있다. 구체적으로, 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 VR 시스템은 3DoF 기반 VR 시스템이라고 불릴 수 있다.

한편, 동일 시간대에서 서로 다른 위치 (viewpoint), 서로 다른 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 VR 시스템은 3DoF+ 또는 3DoF plus 기반 VR 시스템라고 불릴 수 있다.

(a)와 같은 공간(공연장의 예)을 가정했을 때, 서로 다른 위치(붉은색 동그라미로 표시된 공연장의 위치의 예)를 각각의 viewpoint로 고려할 수 있다. 이 때, 예제와 같이 동일 공간에 존재하는 각 viewpoint에서 제공되는 영상/음성은 동일한 시간 흐름을 가질 수 있다.

이 경우 특정 위치에서 사용자의 시점 변화(head motion)에 따라 서로 다른 시각적/청각적 경험 제공할 수 있다. 즉, 특정 viewpoint에 대해 (b)에 도시된 바와 같은 다양한 viewing position의 sphere를 가정할 수 있으며, 각 시점의 상대적인 위치를 반영한 영상/음성/텍스트 정보를 제공할 수 있다.

한편, (c)에 도시된 바와 같이 특정 위치의 특정 시점에서는 기존의 3DoF와 같이 다양한 방향의 시각적/청각적 정보를 전달할 수 있다. 이 때, main source(영상/음성/텍스트) 뿐만 아니라 추가적인 다양한 소스를 통합하여 제공할 수 있으며, 이는 사용자의 시청 방향 (viewing orientation)과 연계되거나 독립적으로 정보를 전달할 수 있다.

도 10은 3DoF+ 의 영상획득, 전처리, 전송, (후)처리, 렌더링 및 피드백 과정을 포함한 3DoF+ end-to-end system 흐름도에 대한 예시이다.

Acquisition: 360 비디오의 캡쳐, 합성 또는 생성 과정 등을 통한 360 비디오를 획득하는 과정을 의미할 수 있다. 이 과정을 통하여 다수의 위치에 대해 head motion에 따른 다수의 영상/음성 정보를 획득할 수 있다. 이 때, 영상 정보는 시각적 정보(texture) 뿐 아니라 깊이 정보(depth)를 포함할 수 있다. 이 때 a의 영상 정보 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 정보를 각각 획득할 수 있다.

Composition: 영상/음성 입력 장치를 통해 획득한 정보 뿐 아니라 외부 미디어를 통한 영상(비디오/이미지 등), 음성(오디오/효과음향 등), 텍스트(자막 등)을 사용자 경험에 포함하기 위해 합성하기 위한 방법을 정의할 수 있다.

Pre-processing: 획득된 360 비디오의 전송/전달을 위한 준비(전처리) 과정으로서, 스티칭, 프로젝션, 리전별 패킹 과정 및/또는 인코딩 과정 등을 포함할 수 있다. 즉, 이 과정은 영상/음성/텍스트 정보를 제작자의 의도에 따라 데이터를 변경/보완 하기위한 전처리 과정 및 인코딩 과정이 포함될 수 있다. 예를 들어 영상의 전처리 과정에서는 획득된 시각 정보를 360 sphere 상에 매핑하는 작업(stitching), 영역 경계를 없애거나 색상/밝기 차이를 줄이거나 영상의 시각적 효과를 주는 보정 작업(editing), 시점에 따른 영상을 분리하는 과정(view segmentation), 360 sphere 상의 영상을 2D 영상으로 매핑하는 프로젝션 과정(projection), 영역에 따라 영상을 재배치 하는 과정 (region-wise packing), 영상 정보를 압축하는 인코딩 과정이 포함될 수 있다. B의 비디오 측면의 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 프로젝션 영상이 생성될 수 있다.

Delivery: 준비 과정(전처리 과정)을 거친 영상/음성 데이터 및 메타데이터들을 처리하여 전송하는 과정을 의미할 수 있다. 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 영상/음성 데이터 및 관련 메타데이터를 전달하는 방법으로써 전술한 바와 같이 방송망, 통신망을 이용하거나, 단방향 전달 등의 방법을 사용할 수 있다.

Post-processing & composition: 수신된/저장된 비디오/오디오/텍스트 데이터를 디코딩하고 최종 재생을 위한 후처리 과정을 의미할 수 있다. 예를 들어 후처리 과정은 전술한 바와 같이 패킹 된 영상을 풀어주는 언패킹 및 2D 프로젝션 된 영상을 3D 구형 영상으로복원하는 리-프로젝션 과정 등이 포함될 수 있다.

Rendering: 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 이 과정에서 영상/음성 신호를 최종적으로 출력하기 위한 형태로 재구성할 수 있다. 사용자의 관심영역이 존재하는 방향(viewing orientation), 시점(viewing position/head position), 위치(viewpoint)를 추적할 수 있으며, 이 정보에 따라 필요한 영상/음성/텍스트 정보만을 선택적으로 사용할 수 있다. 이 때, 영상 신호의 경우 사용자의 관심영역에 따라 c와 같이 서로 다른 시점을 선택할 수 있으며, 최종적으로 d와 같이 특정 위치에서의 특정 시점의 특정 방향의 영상을 출력할 수 있다.

Feedback: 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 본 실시예의 경우 사용자 관심영역의 방향(viewing orientation), 시점(viewing position), 위치(viewpoint)를 추정하고, 이를 기반으로 영상/음성을 재생할 수 있도록 피드백을 전달할 수 있다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도11은 3DoF+ end-to-end 시스템 아키텍쳐의 예시이다. 도 11의 아키텍처에 의하여 전술된 바와 같이 3DoF+ 360 컨텐츠가 제공될 수 있다.

360 비디오 전송 장치는 크게 360 비디오(이미지)/오디오 데이터 획득이 이루어지는 부분 (acquisition unit), 획득된 데이터를 처리하는 부분 (video/audio pre-processor), 추가 정보를 합성하기 위한 부분(composition generation unit), 텍스트, 오디오 및 프로젝션된 360도 비디오를 인코딩하는 부분(encoding unit) 및 인코딩된 데이터를 인캡슐레이션하는 부분(encapsulation unit)으로 구성될 수 있다. 전술한 바와 같이 인코딩된 데이터는 비트스트림(bitstream) 형태로 출력될 수 있으며, 인코딩된 데이터는 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션되거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인코딩된 데이터는 디지털 저장 매체를 통하여 360 비디오 수신 장치로 전달될 수 있으며, 또는 비록 명시적으로 도시되지는 않았으나, 전술한 바와 같이 전송 처리부를 통하여 전송을 위한 처리를 거치고, 이후 방송망 또는 브로드밴드 등을 통하여 전송될 수 있다.

데이터 획득 부분에서는 센서의 방향(sensor orientation, 영상의 경우 viewing orientation), 센서의 정보 획득 시점(sensor position, 영상의 경우 viewing position), 센서의 정보 획득 위치(영상의 경우 viewpoint)에 따라 서로 다른 정보를 동시에 혹은 연속적으로 획득할 수 있으며, 이 때 비디오, 이미지, 오디오, 위치 정보 등을 획득할 수 있다.

영상 데이터의 경우 텍스처 (texture) 및 깊이 정보(depth)를 각각 획득할 수 있으며, 각 컴포넌트의 특성에 따라 서로 다른 전처리 (video pre-processing)가 가능하다. 예를 들어 텍스처 정보의 경우 이미지 센서 위치 정보를 이용하여 동일 위치 (viewpoint)에서 획득한 동일 시점 (viewing position)의 서로 다른 방향 (viewing orientation)의 영상들을 이용하여 360 전방위 영상을 구성할 수 있으며, 이를 위해 영상 스티칭 (stitching) 과정을 수행할 수 있다. 또한 영상을 인코딩하기 위한 포맷으로 변경하기 위한 프로젝션(projection) 및/또는 리전별 팩킹을 수행할 수 있다. 깊이 영상의 경우 일반적으로 뎁스 카메라를 통해 영상을 획득할 수 있으며, 이 경우 텍스쳐와 같은 형태로 깊이 영상을 만들 수 있다. 혹은, 별도로 측정된 데이터를 바탕으로 깊이 데이터를 생성할 수도 있다. 컴포넌트 별 영상이 생성된 후 효율적인 압축을 위한 비디오 포맷으로의 추가 변환 (packing)을 하거나 실제 필요한 부분으로 나누어 재 구성하는 과정 (sub-picture generation)이 수행될 수 있다. Video pre-processing 단에서 사용된 영상 구성에 대한 정보는 video metadata로 전달된다.

획득된 데이터 (혹은 주요하게 서비스 하기 위한 데이터) 이외에 추가적으로 주어지는 영상/음성/텍스트 정보를 함께 서비스 하는 경우, 이들 정보를 최종 재생 시 합성하기 위한 정보를 제공할 필요가 있다. 컴포지션 생성부(Composition generation unit)에서는 제작자의 의도를 바탕으로 외부에서 생성된 미디어 데이터 (영상의 경우 비디오/이미지, 음성의 경우 오디오/효과 음향, 텍스트의 경우 자막 등)를 최종 재생 단에서 합성하기 위한 정보를 생성하며, 이 정보는 composition metadata로 전달된다.

각각의 처리를 거친 영상/음성/텍스트 정보는 각각의 인코더를 이용해 압축되고, 어플리케이션에 따라 파일 혹은 세그먼트 단위로 인캡슐레이션 된다. 이 때, 비디오, 파일 혹은 세그먼트 구성 방법에 따라 필요한 정보만을 추출(file extractor)이 가능하다.

또한 각 데이터를 수신기에서 재구성하기 위한 정보가 코덱 혹은 파일 포멧/시스템 레벨에서 전달되는데, 여기에서는 비디오/오디오 재구성을 위한 정보 (video/audio metadata), 오버레이를 위한 합성 정보 (composition metadata), 비디오/오디오 재생 가능 위치 (viewpoint) 및 각 위치에 따른 시점 (viewing position) 정보 (viewing position and viewpoint metadata) 등이 포함된다. 이와 같은 정보의 처리는 별도의 메타데이터 처리부를 통한 생성도 가능하다.

360 비디오 수신 장치는 크게 수신된 파일 혹은 세그먼트를 디캡슐레이션하는 부분 (file/segment decapsulation unit), 비트스트림으로부터 영상/음성/텍스트 정보를 생성하는 부분 (decoding unit), 영상/음성/텍스트를 재생하기 위한 형태로 재구성하는 부분 (post-processor), 사용자의 관심영역을 추적하는 부분 (tracking unit) 및 재생 장치인 디스플레이로 구성될 수 있다.

디캡슐레이션을 통해 생성된 비트스트림은 데이터의 종류에 따라 영상/음성/텍스트 등으로 나뉘어 재생 가능한 형태로 개별적으로 디코딩될 수 있다.

tracking 부분에서는 센서 및 사용자의 입력 정보 등을 바탕으로 사용자의 관심 영역 (Region of interest)의 위치 (viewpoint), 해당 위치에서의 시점 (viewing position), 해당 시점에서의 방향 (viewing orientation) 정보를 생성하게 되며, 이 정보는 360 비디오 수신 장치의 각 모듈에서 관심 영역 선택 혹은 추출 등에 사용되거나, 관심 영역의 정보를 강조하기 위한 후처리 과정 등에 사용될 수 있다. 또한 360 비디오 전송 장치 에 전달되는 경우 효율적인 대역폭 사용을 위한 파일 선택 (file extractor) 혹은 서브 픽처 선택, 관심영역에 기반한 다양한 영상 재구성 방법 (viewport/viewing position / viewpoint dependent processing) 등에 사용될 수 있다.

디코딩 된 영상 신호는 영상 구성 방법에 따라 다양한 처리 방법에 따라 처리될 수 있다. 360 비디오 전송 장치에서 영상 패킹이 이루어 진 경우 메타데이터를 통해 전달된 정보를 바탕으로 영상을 재구성 하는 과정이 필요하다. 이 경우 360 비디오 전송 장치에서 생성한 video metadata를 이용할 수 있다. 또한 디코딩 된 영상 내에 복수의 시청 위치 (viewpoint), 혹은 복수의 시점 (viewing position), 혹은 다양한 방향 (viewing orientation)의 영상이 포함된 경우 tracking 을 통해 생성된 사용자의 관심 영역의 위치, 시점, 방향 정보와 매칭되는 정보를 선택하여 처리할 수 있다. 이 때, 송신단에서 생성한 viewing position and viewpoint metadata가 사용될 수 있다. 또한 특정 위치, 시점, 방향에 대해 복수의 컴포넌트가 전달되거나, 오버레이를 위한 비디오 정보가 별도로 전달되는 경우 각각에 따른 렌더링 과정이 포함될 수 있다. 별도의 렌더링 과정을 거친 비디오 데이터(텍스처, 뎁스, 오버레이)는 합성 과정 (composition)을 거치게 되며, 이 때, 송신단에서 생성한 composition metadata가 사용될 수 있다. 최종적으로 사용자의 관심 영역에 따라 viewport에 재생하기 위한 정보를 생성할 수 있다.

디코딩 된 음성 신호는 오디오 렌더러 그리고/혹은 후처리 과정을 통해 재생 가능한 음성 신호를 생성하게 되며, 이 때 사용자의 관심 영역에 대한 정보 및 360 비디오 수신 장치에 전달된 메타데이터를 바탕으로 사용자의 요구에 맞는 정보를 생성할 수 있다.

디코딩 된 텍스트 신호는 오버레이 렌더러에 전달되어 서브타이틀 등의 텍스트 기반의 오버레이 정보로써 처리된다. 필요한 경우 별도의 텍스트 후처리 과정이 포함될 수 있다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

위에서 기술한 송신단 및 수신단의 세부 블록은 FLUS (Framework for Live Uplink Streaming)에서의 source 와 sink의 기능으로 각각 분류할 수 있으며, 이 경우 아래와 같이 정보 획득 장치에서 source의 기능을 구현하고, 네트워크 상에서 sink의 기능을 구현하거나, 혹은 네트워크 노드 내에서 source / sink를 각각 구현할 수 있다. 네트워크 노드는 UE(user equipment)를 포함할 수 있다. UE는 상술한 360 비디오 전송 장치 또는 360 비디오 수신 장치를 포함할 수 있다.

위에서 기술한 아키텍처를 기반으로 한 송수신 처리 과정을 아래와 같이 나타낼 수 있다. 아래의 송수신 처리 과정은 영상 신호 처리 과정을 기준으로 기술하며, 음성 혹은 텍스트와 같은 다른 신호를 처리하는 경우 기울임(italic)으로 표시된 부분은 생략하거나, 음성 혹은 텍스트 처리 과정에 맞도록 변경하여 처리할 수 있다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

송신단(360 비디오 전송 장치)에서는 입력된 데이터가 카메라 출력 영상인 경우 sphere 영상 구성을 위한 스티칭을 위치/시점/컴포넌트 별로 진행할 수 있다. 위치/시점/컴포넌트 별 sphere 영상이 구성되면 코딩을 위해 2D 영상으로 프로젝션을 수행할 수 있다. 어플리케이션에 따라 복수의 영상을 통합 영상으로 만들기 위한 패킹 혹은 세부 영역의 영상으로 나누는 서브 픽처로 생성할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정으로서 수행되지 않을 수 있으며, 이 경우 패킹 처리부는 생략될 수 있다. 입력된 데이터가 영상/음성/텍스트 추가 정보인 경우 추가 정보를 중심 영상에 추가하여 디스플레이 하는 방법을 알려줄 수 있으며, 추가 데이터도 함께 전송할 수 있다. 생성된 영상 및 추가된 데이터를 압축하여 비트 스트림으로 생성하는 인코딩 과정을 거쳐 전송 혹은 저장을 위한 파일 포맷으로 변환하는 인캡슐레이션 과정을 거칠 수 있다. 이 때 어플리케이션 혹은 시스템의 요구에 따라 수신부에서 필요로하는 파일을 추출하는 과정이 처리될 수 있다. 생성된 비트스트림은 전송처리부를 통해 전송 포맷으로 변환된 후 전송될 수 있다. 이 때, 송신측 피드백 처리부에서는 수신단에서 전달된 정보를 바탕으로 위치/시점/방향 정보와 필요한 메타데이터를 처리하여 관련된 송신부에서 처리하도록 전달할 수 있다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

수신단(360 비디오 수신 장치)에서는 송신단에서 전달한 비트스트림을 수신한 후 필요한 파일을 추출할 수 있다. 생성된 파일 포맷 내의 영상 스트림을 피드백 처리부에서 전달하는 위치/시점/방향 정보 및 비디오 메타데이터를 이용하여 선별하며, 선별된 비트스트림을 디코더를 통해 영상 정보로 재구성할 수 있다. 패킹된 영상의 경우 메타데이터를 통해 전달된 패킹 정보를 바탕으로 언패킹을 수행할 수 있다. 송신단에서 패킹 과정이 생략된 경우, 수신단의 언패킹 또한 생략될 수 있다. 또한 필요에 따라 피드백 처리부에서 전달된 위치/시점/방향에 적합한 영상 및 필요한 컴포넌트를 선택하는 과정을 수행할 수 있다. 영상의 텍스처, 뎁스, 오버레이 정보 등을 재생하기 적합한 포맷으로 재구성하는 렌더링 과정을 수행할 수 있다. 최종 영상을 생성하기에 앞서 서로 다른 레이어의 정보를 통합하는 컴포지션 과정을 거칠 수 있으며, 디스플레이 뷰포트(viewport)에 적합한 영상을 생성하여 재생할 수 있다.

도 15는 OMAF 구조를 나타낸다.

360 비디오 기반 VR 시스템은 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 서비스를 3DoF 기반 서비스라고 불릴 수 있다. 한편, 동일 시간대에서 임의의 위치 및 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 서비스는 6DoF (six degree of freedom) 기반 서비스라고 불릴 수 있다.

3DoF service를 위한 File format은 예를 들면 도15에 도시된 바와 같이 Head/eye tracking 모듈에 따라 rendering의 위치, 전송할 file의 정보, decoding 정보 등이 달라질 수 있는 구조를 가지고 있다. 그러나, 이러한 방식은 사용자의 위치 혹은 position에 따라 rendering의 정보/전송 내용, decoding의 정보가 달라지는 6DoF의 media file 전송에는 적합하지 않기에 수정이 필요하다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

본 명세서의 실시예들은 사용자에게 몰입형 미디어/실감미디어(Immersive media)의 경험을 제공하기 위해, 6DoF contents를 제공하는 방안을 제안한다. 몰입형 미디어/실감미디어는 기존의 360 콘텐츠가 제공하는 가상의 환경에서 확대된 개념으로 기존의 360 콘텐츠가 (a)와 같은 형태로 사용자의 position 위치는 고정되어 있고, 회전에 대한 개념만 있었다면 몰입형 미디어/실감미디어는 (b) 혹은 (c) 와 같이 사용자에게 콘텐츠를 경험할 때 이동의 개념을 부여함으로써 가상의 공간에서 사용자의 이동/회전 등 더 다양한 감각적 경험을 제공할 수 있는 환경 혹은 콘텐츠를 의미할 수 있다.

(a)는 사용자의 포지션이 고정된 상태에서 사용자의 뷰가 회전하는 경우의 미디어 경험을 나타낸다.

(b) 는 사용자의 포지션이 고정된 상태에서 나아가 사용자의 머리가 추가적으로 움직일 수 있는 경우의 미디어 경험을 나타낸다.

(c) 는 사용자의 포지션이 움직일 수 있는 경우의 미디어 경험을 나타낸다.

실감 미디어 콘텐츠는 해당 콘텐츠를 제공하기 위한 6DoF비디오 및 6DoF오디오를 포함할 수 있으며, 6DoF 비디오는 실감미디어 콘텐츠 제공에 필요한 매 이동 때마다 새롭게 형성되는 3DoF 혹은 360비디오로 캡쳐되거나 재생되는 비디오 혹은 이미지를 의미 할 수 있다. 6DoF 콘텐츠는 3차원 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있다. 콘텐츠 내에서 이동이 고정된 상태라면 해당 콘텐츠는 기존의 360비디오와 같이 다양한 형태의 3차원 공간에서 나타내어질 수 있다. 예를 들어 구형 (Spherical)면 상에 나타내어질 수 있다. 콘텐츠 내에서 이동이 자유로운 상태라면 이동 경로 상에 사용자를 중심으로 3차원 공간이 매번 새롭게 형성되고 해당 위치의 콘텐츠를 사용자가 경험할 수 있다. 예를 들어 사용자가 처음 보는 위치에서의 구형(spherical)면 상에 나타내어진 영상을 경험하고, 3차원 공간에서 실제 사용자가 이동을 하였다면 이동한 위치를 중심으로 새로운 구형(spherical)면의 영상이 형성되고 해당 콘텐츠를 소비할 수 있다. 6DoF 오디오도 마찬가지로 실감형 미디어를 경험할 수 있도록 하는 콘텐츠를 제공하기 위한 오디오 콘텐츠로, 음향의 소비하는 위치가 이동함에 따른 공간적(spatial)오디오를 새롭게 형성하고 소비하기 위한 콘텐츠를 의미할 수 있다.

본 명세서의 실시예들은 특히 6DoF 비디오를 효과적으로 제공하는 방안을 제안한다. 6DoF 비디오는 서로 다른 위치에서 두 개 이상의 카메라로 캡처 될 수 있다. 캡처된 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터 중 일부를 사용자의 초기 위치를 원점으로 하는 360비디오로 가공하여 렌더링 할 수 있으며 사용자의 위치가 이동하면 이동한 위치를 중심으로 새로운 360 비디오를 가공하여 렌더링 함으로써 6DoF비디오가 사용자에게 제공될 수 있다.

이하에서, 6DoF 비디오 서비스 제공을 위한 송신 방법 및 수신 방법을 설명한다.

도 17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

앞서 정리한 일련의 과정들을 도17을 바탕으로 구체적으로 설명하자면 먼저 획득(Acquisition)단계로 6DoF contents 를 캡처를 위해 HDCA(High Density Camera Array), Lenslet (microlens) camera 등이 사용될 수 있으며, 6DoF 비디오 캡처를 위해 디자인 된 새로운 디바이스로 획득 될 수 있다. 획득된 영상은 Fig.3a와 같이 캡처한 카메라의 위치에 따라 생성된 이미지/비디오 데이터 집합이 여러 개 생성될 수 있다. 이 때 캡처 과정에서 카메라의 내부/외부 설정 값 등의 메타메이타가 생성될 수 있다. 카메라가 아닌 컴퓨터로 생성된 영상의 경우 캡처 과정이 갈음될 수 있다. 획득된 영상의 전처리(pre-processing)과정은 캡처된 이미지/비디오 및 캡처 과정에서 전달된 메타데이타(metadata)를 처리하는 과정일 수 있다. 이 준비 과정에서는 스티칭(Stitching) 과정, 색보정(color correction)과정, 프로젝션 과정, 코딩 효율을 높이기 위해 주요 시점 (primary view)와 부차 시점(secondary view)로 분리 하는 시점 분리(view segmenation)과정 및 인코딩 과정 등 전송 전 콘텐츠를 처리하는 모든 형태의 전처리 단계가 해당될 수 있다.

스티칭 과정은 각 카메라의 위치에서 360 방향으로 캡처된 영상을 각각의 카메라 위치를 중심으로 하는 파노라마 혹은 구형의 형태로 영상을 잇는 이미지/비디오를 만드는 과정일 수 있다. 프로젝션은 각각의 스티칭 결과 영상을 Fig3b와 같이 2D 이미지로 투영 시키는 과정을 의미하며, 2D 이미지로 맵핑한다고 표현할 수 있다. 각 카메라 위치에서 맵핑한 영상은 주요시점과 부차 시점으로 분리 하여 비디오 코딩 효율을 높이기 위해 시점별 다른 해상도(resolution)를 적용할 수 있으며, 주요 시점 내에서도 맵핑 영상의 배치나 해상도(resolution)를 달리 함으로써 코딩 시 효율을 높일 수 있다. 부차 시점은 캡처 환경에 따라 없을 수도 있다. 부차 시점은 주요 시점에서 또 다른 주요 시점으로 사용자가 이동할 경우 이동 과정에서 재생되어야 하는 이미지/비디오를 의미하며 주요 시점에 비해 낮은 해상도를 가질 수도 있으나 필요에 따라 동일한 해상도를 가질 수도 있다. 때에 따라서는 부차 시점은 수신기에서 가상의 정보로 새롭게 생성 될 수 있다.

실시예에 따라 전처리 과정으로 에디팅(editing)과정 등을 더 포함할 수 있다. 이 과정에서 프로젝션 전 후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있으며, 전처리 과정에서도 메타메이타가 생성될 수 있다. 또한 이미지/비디오 제공시 가장 처음 재생해야 하는 초기 시점, 사용자의 초기 위치 및 ROI(Region of Interest)등에 관한 메타메이타가 생성될 수 있다.

미디어 전송 단계는 전처리 과정에서 얻어진 이미지/비디오 데이터 및 메타메이타들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있으며, 전처리 된 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있으며, 이 데이터들은 온디맨드(on demand) 방식으로 수신측으로 전달될 수 있다.

프로세싱 과정은 수신된 이미지/비디오 데이터 및 메타메이타를 디코딩, 3차원 모델로 맵핑 혹은 프로젝션이라고도 불릴 수 있는 리-프로젝션(re-projection) 하는 과정, 가상 시점의 생성 및 합성 과정 등 이미지/비디오를 재생하기 위한 이미지 생성 전 모든 단계가 프로세싱(processing) 단계에 포함될 수 있다. 맵핑 되는 3차원 모델 혹은 프로젝션 맵은 기존의 360비디오와 같이 구형(sphere), 큐브(cube), 실린더(cylinder), 또는 피라미드(pyramid)가 있을 수 있으며 기존의 360 비디오의 프로젝션 맵의 변형된 형태가 될 수 있으며, 경우에 따라 자유형 형태의 프로젝션 맵이 될 수 있다.

가상 시점의 생성 및 합성 과정은 주요 시점과 부차 시점 사이에 혹은 주요 시점과 주요 시점 사이에 사용자가 이동할 경우 재생되어야 하는 이미지/비디오 데이터를 생성하고 합성하는 과정을 의미할 수 있다. 가상 시점 생성을 위해 캡쳐 및 전처리 과정에서 전달된 메타메이타를 처리하는 과정이 필요할 수 있고, 경우에 따라서는 가상 시점에서 360 이미지/비디오 전체가 아닌 일부만 생성/합성할 수도 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing)과정, 업스케일링(up scaling), 다운 스케일링(down scaling) 과정 등이 더 포함될 수도 있다. 에디팅 과정에서 프로세싱 과정 후에 재생 전 필요한 추가 편집 과정이 적용될 수 있다. 필요에 따라서는 전송 받은 이미지/비디오를 업스케일링 혹은 다운 스케일링 하는 작업이 수행될 수도 있다.

렌더링 과정은 전송 혹은 생성되어 리프로젝션 된 이미지/비디오를 디스플레이 할 수 있도록 렌더링 하는 과정을 의미할 수 있다. 때에 따라서는 렌더링과 리프로젝션 과정을 렌더링이라고 통칭하기도 한다. 따라서 렌더링 과정 중에 리프로젝션 과정이 포함될 수 있다. 리프로젝션은 fig.3c와 같은 형태로 사용자 중심의 360 비디오/이미지와 사용자가 이동 방향에 따라 각 이동한 위치를 중심으로 형성되는 360 비디오/이미지가 형성되는 형태로 다수의 리프로젝션 결과물이 있을 수 있다. 사용자는 디스플레이 할 디바이스에 따라 360 비디오/이미지의 일부 영역을 볼 수 있으며, 이 때 사용자가 보게 되는 영역은 fig.3d와 같은 형태가 될 수 있으며, 사용자가 이동하는 경우 전체 360 비디오/이미지가 렌더링 되는 것이 아니라 사용자가 보고 있는 위치에 해당되는 영상만 렌더링 될 수 있다. 또한 사용자의 위치와 이동 방향에 관한 메타메이타를 전달 받아 미리 움직임을 예측하고 이동할 위치의 비디오/이미지를 추가로 렌더링할 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신 측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 6DoF콘텐츠와 사용자간의 인터렉티비티 (interactivity)가 일어날 수 있으며, 실시예에 따라 피드백 과정에서 사용자의 머리와 포지션 위치 정보 (head/position orientation) 및 사용자가 현재 보고 있는 영역(viewport)에 대한 정보 등이 전달 될 수도 있다. 해당 정보는 피드백 과정에서 송신측 혹은 서비스 제공자 측에 전달 될 수 있으며, 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

사용자의 위치 정보는 사용자의 머리 위치, 각도, 움직임 및 이동 거리 등에 대한 정보를 의미할 수 있으며, 해당 정보를 바탕으로 사용자가 보고 있는 위치(viewport) 정보가 계산 될 수 있다.

송신측에서의 본 명세서의 실시예들은 6DoF 비디오 전송 장치와 관련 될 수 있다. 실시예들에 따른 6DoF 비디오 전송 장치는 전술한 준비 과정 및 동작들을 수행할 수 있다. 실시예들에 따른 6DoF 비디오/이미지 전송 장치는 데이터 입력부, 깊이 정보 처리부 (도시되지 않음), 스티처(Stitcher), 프로젝션 처리부, 시점 분리 처리부, 시점별 패킹 처리부, 메타메이타 처리부, 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 구성 요소로 포함할 수 있다.

데이터 입력부는 한 군데 이상의 위치에서 한 개 이상의 카메라로 캡쳐된 각 시점별 이미지/비디오/깊이정보/오디오 데이터를 입력 받을 수 있다. 데이터 입력부는 캡처 과정에서 발생된 메타메이타를 비디오/이미지/깊이정보/오디오 데이터와 함께 입력 받을 수 있다. 데이터 입력부는 입력된 각 시점별 비디오/이미지 데이터를 스티처로 전달하고, 캡쳐 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다.

스티처는 캡쳐된 시점별/위치별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타메이타 처리부로부터 전달받아 스티칭을 할 수 있다. 스티처는 스티칭 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 스티처는 깊이(depth)정보 처리부 (도식되지 않음) 에서 전달 받은 위치값을 활용하여 비디오/이미지 스티칭 위치를 다르게 할 수 있다. 스티처는 스티칭 과정에서 발생된 메타메이타를 처리부로 전달할 수 있다. 전달 되는 메타메이타는 스티칭 수행 여부, 스티칭 타입, 주요 시점(primary view)과 부차 시점(secondary view)의 ID 및 해당 시점의 위치 정보 등이 있을 수 있다.

프로젝션 처리부는 스티칭된 6DoF 비디오 데이터를 2D 이미지 프레임에 프로젝션할 수 있다. 프로젝션 처리부는 스킴(scheme)에 따라 다른 형태의 결과물을 얻을 수 있는데, 해당 스킴은 기존의 360비디오의 프로젝션 스킴과 유사할 수도 있고, 6DoF를 위해 새롭게 제안된 스킴이 적용 될수도 있다. 또한 각 시점별 서로 다른 스킴을 적용할 수 있다. 깊이 정보 처리부는 깊이 정보를 프로젝션 처리부로 전달하여 맵핑 결과 값을 다르게 할 수 있다. 프로젝션 처리부는 필요한 경우 메타메이타 처리부로부터 프로젝션에 필요한 메타메이타를 전달받아 프로젝션 작업에 이용할 수 있으며, 프로젝션 처리부는 프로젝션 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 해당 메타메이타는 스킴의 종류, 프로젝션 수행 여부, 주요시점과 부차 시점의 프로젝션 후의 2D 프레임의 ID 및 시점별 위치 정보 등이 있을 수 있다.

시점별 패킹 처리부는 전술한 바와 같이 주요 시점과 부차 시점으로 나누고, 각 시점 내 리전별 패킹 과정을 수행할 수 있다. 즉 시점별 패킹 처리부는 각 시점/위치별 프로젝션된 6DoF 비디오 데이터를 주요 시점과 부차 시점으로 분류하여 코딩 효율을 높이기 위해 주요 시점과 부차 시점을 다른 해상도를 가질 수 있도록 하거나 각 시점의 비디오 데이터를 회전, 재배열 달리하고 각 시점 안에서 나누어진 리전별 해상도를 다르게 할 수도 있다. 주요 시점과 부차 시점을 분류하는 과정은 생략될 수 있으며, 선택적인 과정일 수 있으며, 리전별 다른 해상도를 가지거나 배치를 다르게 하는 것도 선택적으로 수행될 수 있다. 시점별 패킹 처리부가 수행될 경우에 패킹은 메타메이타 처리부로부터 전달 받은 정보를 활용하여 수행 될 수 있으며, 패킹 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수도 있다. 시점별 패킹 처리 과정에서 정의되는 메타메이타는 주요 시점과 부차 시점을 분류하기 위한 각 시점의 ID와 시점 내 리전별 적용되는 사이즈, 회전 각 리전별 위치 값 등이 될 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 시점별 패킹 처리부는 실시예에 따라 하나 이상의 하드웨어 컴포넌트 혹은 스트리밍/다운로드 서비스 내의 인제스트 서버(Ingest server)에서 일어날 수도 있다.

메타메이타 처리부는 캡쳐 과정, 스티칭 과정, 프로젝션 과정, 시점별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타메이타들을 처리할 수 있다. 메타메이타 처리부는 각 프로세스에서 전달 받은 메타메이타를 활용하여 6DOF 비디오 서비스를 위한 새로운 메타메이타를 생성할 수 있다. 실시예에 따라 메타메이타 처리부는 새롭게 생성된 메타메이타를 시그널링 테이블의 형태로 생성할 수도 있다. 메타메이타 처리부는 전달받거나 메타메이타 처리부에서 새롭게 생성/가공된 메타메이타를 다른 요소들에 전달 할 수 있다. 메타메이타 처리부는 생성되거나 전달 받은 메타메이타를 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달 할 수 있다.

데이터 인코더는 2D 이미지 프레임 상에 프로젝션 된 6DoF 비디오 데이터 및/또는 시점별/리전별 패킹된 비디오 데이터를 인코딩 할 수 있다. 인코딩은 다양한 포맷으로 수행 될 수 있으며, 시점별 분류가 되었다면, 시점별 인코딩 결과 값을 분리하여 전달 할 수도 있다.

인캡슐레이션 처리부는 인코딩된 6DoF 비디오 데이터 및/또는 관련 메타메이타를 파일 등의 형태로 인캡슐레이션 할 수 있다. 관련 메타메이타는 전술한 메타메이타 처리부로부터 전달 받을 수 있다. 인캡슐레이션 처리부는 해당 데이터를 ISOBMFF, OMAF 등의 파일 포맷으로 인캡슐레이션 하거나 DASH 세그먼트 등의 형태로 처리할 수 있으며, 새로운 형태의 파일 포맷으로 처리될 수도 있다. 메타메이타는 파일 포맷 내 다양한 레벨에 존재하는 박스(box)에 포함되거나 별로의 트랙내의 데이터로 포함하거나 메타메이타만 파일로 인캡슐레이션 할 수 있다. 시점별 별도의 인캡슐레이션 처리가 가능할 수도 있고, 시점별 필요한 메타메이타와 해당 비디오 정보를 함께 인캡슐레이션 할 수도 있다.

전송 처리부는 포맷에 따라 인캡슐레이션된 비디오 데이터에 전송을 위한 추가 처리를 가할 수 있다. 해당 처리는 메타메이타 처리부에서 전달 받은 메타메이타를 활용하여 작동할 수 있다. 전송부는 전송 처리부로부터 전달 받은 데이터 및/또는 메타메이타를 방송망 및/또는 브로드밴드를 통해 전송될 수 있다. 전송부는 방송망및/또는 브로드밴드를 통한 전송 시 필요한 구성 요소가 포함될 수 있다.

피드백 처리부(송신측)는 및/또는 네트워크 인터페이스(도시되지 않음)를 추가로 더 포함할 수 있다. 네트워크 인터페이스는 실시예들에서 후술 되는 수신 장치로부터 피드백 정보를 전달 받고 피드백 처리부(송신측) 으로 전달 할 수 있다. 피드백 처리부는 수신측에서 전달받은 정보를 스티칭, 프로젝션, 시점별 패킹, 인코터, 인캡슐레이션 처리부 및/또는 전송 처리부로 전달 할 수 있으며, 메타메이타 처리부로 전달하여 메타메이타 처리부가 다른 요소들에 전달하거나 메타메이타 처리부에서 새로운 메타메이타를 생성/가공하여 전달 할 수 있다. 실시예들의 또 다른 실시예에 따르면 피드백 처리부가 네트워크 인터페이스로부터 전달 받은 위치/시점 정보를 메타메이타 처리부로 전달하며, 메타메이타 처리부는 프로젝션, 시점별 패킹 처리부, 인캡슐레이션 처리부 및/또는 데이터 인코더로 해당 위치/시점 정보를 전달하여 현재 사용자의 시점/위치에 맞는 정보와 주변 정보만을 전송하여 코딩 효율을 높일 수 있다.

전술한 6DoF비디오 전송 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

본 명세서의 실시예들은 수신 장치와 관련될 수 있다. 실시예들에 따르면 6DoF 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 메타메이타 파서, 피드백 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상시점 생성/합성부 및/또는 렌더러를 구성요소로 가질 수 있다.

수신부는 전술한 6DoF전송 장치로부터 비디오 데이터를 수신할 수 있다. 비디오 데이터가 전송되는 채널에 따라 수신부는 방송망 또는 브로드밴드를 통해 수신할 수도 있다.

수신 처리부는 수신된 6DoF 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 전송 처리부에서 수행된 과정의 역순으로 수행하거나 프로토콜 처리 방법에 따른 과정을 거쳐 전송 처리부 이전 단계에서 얻은 데이터를 획득한다. 수신 처리부는 획득한 데이터를 디캡슐레이션 처리부로 전달하고, 수신부로 부터 받은 메타메이타 정보를 메타메이타 파서로 전달할 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 6DoF 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 해당 파일 포맷에 맞추어 파일들을 디캡슐레이션하여, 6DoF 비디오 및/또는 메타메이타를 획득할 수 있다. 획득된 6DoF 비디오 데이터는 데이터 디코더로 보낼 수 있고, 6DoF 메타메이타는 메타메이타 파서로 전달할 수 있다. 디캡슐레이션 처리부는 필요에 따라 메타메이타 파서로부터 디캡슐레이션에 필요한 메타메이타를 전달받을 수도 있다.

데이터 디코더는 6DoF 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타메이타 파서로부터 디코딩에 필요한 메타메이타를 전달 받을 수 있다. 데이터 디코딩 과정에서 획득 된 메타메이타는 메타메이타 파서로 전달되어 처리될 수 있다.

메타메이타 파서는 6DoF 비디오 관련 메타메이타에 대한 파싱/디코딩을 수행할 수 있다. 메타메이타 파서는 획득한 메타메이타를 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상 시점 생성/합성부 및/또는 렌더러로 전달 할 수도 있다.

리-프로젝션 처리부는 디코딩된 6DoF 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 각 시점/위치별 6DoF 데이터를 각각 3차원 공간으로 리-프로젝션할 수 있다. 3차원 공간은 사용되는 3차원 모델에 따라 다른 형태를 가질 수도 있고, 변환 과정을 거처 동일한 형태의 3차원 모델로 리-프로젝션 될 수도있다. 리-프로젝션 처리부는 메타메이타 파서로부터 필요한 메타메이타를 전달 받을 수 있다. 리-프로젝션 과정에서 정의된 메타메이타를 메타메이타 파서로 전달할 수도 있다. 예를 들어 각 시점/위치 별 6DoF 비디오 데이터의 3차원 모델을 메타메이타 파서로 전달 받을 수 있고, 각 시점/위치별 비디오 데이터의 3차원 모델이 다르고 모든 시점의 비디오 데이터를 동일한 3차원 모델로 리-프로젝션 되었을 경우 어떤 모델이 적용 되었는지 메타메이타 파서로 전달할 수 있다. 때에 따라서는 리-프로젝션에 필요한 메타메이타를 이용하여, 3차원 공간 내에 특정 영역만 리-프로젝션 할 수 있으며, 한 개 이상의 특정 영역을 리-프로젝션 할 수도 있다.

가상 시점 생성/합성부는 전송되어 리-프로젝션 된 3차원 공간상에서 수신된 6DoF 비디오 데이터에 포함되어 있지 않으나 재생이 필요한 가상의 시점 영역에서 비디오 데이터를 주어진 데이터를 활용하여 생성하고, 가상 시점을 중심으로 새로운 시점/위치에서의 비디오 데이터를 합성하는 과정을 수행할 수 있다. 새로운 시점의 비디오 데이터를 생성할 때 깊이(depth)정보 처리부 (도시하지 않음)의 데이터를 활용할 수 있다. 가상 시점 생성/합성부는 메타메이타 파서로부터 전달 받은 특정 영역과 수신 되지 않은 주변 가상 시점 영역의 일부만 생성/합성 할 수 있다. 가상 시점 생성/합성부는 선택적으로 수행될 수 있으며, 필요한 시점 및 위치에 해당하는 비디오 정보가 없을 때 수행된다.

렌더러는 리-프로젝션 혹은 가상 시점 생성/합성부에서 전달된 6DoF 비디오 데이터를 렌더링 할 수 있다. 전술 한 바와 같이 3차원 공간상에서 리-프로젝션 혹은 가상 시점 생성/합성부에서 일어나는 모든 과정은 렌더러와 통합되어 렌더러 내에서 이 과정들이 진행될 수 있다. 실시예에 따라 사용자의 시점/위치 정보에 따라 사용자가 보고 있는 부분 및 예상 경로 상의 일부만 렌더링 할 수도 있다.

실시예들에서 피드백 처리부(수신측) 및/또는 네트워크 인터페이스(도시되지 않음)을 추가적인 구성요소로 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 가상 시점 생성/합성부, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 사용자의 뷰포트 정보, 헤드 및 포지션 오리엔테이션 정보, 게이즈(gaze) 정보, 제스처(gesture) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 피드백 처리부로부터 전달 받고, 전송 장치로 전송할 수 있으며, 수신측의 각 구성요소에서 소비될 수도 있다. 예를 들면, 디캡슐레이션 처리부에서는 피드백 처리부로 부터 사용자의 위치/시점 정보를 전달 받아 수신된 6DoF 비디오 중에 해당 위치의 정보가 있을 경우 해당 위치 정보만 디캡슐레이션, 디코딩, 리-프로젝션, 렌더링을 할 수 있다. 만약 해당 위치의 정보가 없을 경우 해당 위치 주변에 위치한 6DoF 비디오를 모두 디캡슐레이션, 디코딩, 리-프로젝션, 가상 시점 생성/합성, 렌더링의 과정을 거칠 수 있도록 할 수 있다.

전술한 6DoF비디오 수신 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도20은 6 DoF 비디오 전송/수신 장치의 구성을 나타낸다.

6DoF 콘텐츠는 파일 형태로 제공되거나 DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있으며, 새로운 파일 포맷 혹은 스트리밍/다운로드 서비스 방법이 대신 쓰일 수도 있다. 여기서 6DoF 콘텐츠는 실감미디어(immersive media) 콘텐츠 혹은 라이트필드(light field) 콘텐츠, 혹은 포인트 클라우드(point cloud) 콘텐츠로 불릴 수 있다.

전술한 바와 같이 해당 파일 제공 및 스트리밍/다운로드 서비스를 위한 각 과정은 아래와 같이 상세하게 설명될 수 있다.

Acquisition : multi view/stereo/depth image를 획득하기 위한 camera 로 부터 capture 후 얻어지는 output 이며, 2개 이상의 video/image및 오디오 데이터가 얻어지게 되고, depth camera가 있는 경우 각 scene에서의 depth map도 획득(acquisition) 될 수 있다.

Audio Encoding : 6DoF 오디오 데이터는 오디오 전처리 과정, 인코딩 과정을 거칠 수 있다. 이 과정에서 메타메이타가 생성될 수 있으며, 관련 메타메이타는 전송을 위해 인캡슐레이션/인코딩 과정을 거칠 수 있다.

Stitching, Projection, mapping, and correction : 6DoF 비디오 데이터는 전술한 바와 같이 다양한 위치에서 획득된 영상의 에디팅, 스티칭, 프로젝션 과정을 거칠 수 있다. 이 과정은 실시예에 따라 일부만 수행되기도 하고, 전체가 생략되어 수신기측에서 수행 될 수도 있다.

View segmentation/packing : 전술한 바와 같이 시점 분리/패킹 처리부는 스티칭 된 영상을 바탕으로 수신기 측에서 요구 되는 주요 시점,Primary View(PV) 위치의 영상을 분리해 내어 패킹 하고, 주요 시점으로 분리되어 패킹 된 후 나머지 영상을 부차 시점, Secondary View(SV)로 패킹하는 전처리 과정을 거칠 수 있다. 패킹하는 과정에서 코딩 효율을 높이기 위해 주요 시점과 부차 시점의 사이즈, 해상도 등이 조정될 수 있다. 동일한 성격의 시점 내에서도 리전별 다른 조건으로 해상도를 가지거나 리전에 따라 회전, 재배치 될 수 있다.

Depth sensing and/or estimation: 깊이 캡처 카메라 (depth camera)가 존재하지 않는 경우 획득된 2개 이상의 영상에서 깊이 맵을 추출해 내는 과정을 수행하기 위함이며 깊이 캡처 카메라 (depth camera)가 있는 경우 영상 획득 위치에서 영상 내 포함된 각 오브젝트(object)의 깊이가 얼만큼 되는지 위치 정보를 저장하기 위한 과정을 수행할 수 있다.

Point Cloud Fusion/extraction 미리 획득 된 깊이 맵을 인코딩 가능한 형태의 데이터로 변형하는 과정을 수행할 수 있다. 예를 들어 포인트 클라우드 데이터 타입으로 변형하여 3차원에서 영상의 각 오브젝트의 위치 값을 할당하는 전처리 과정을 수행할 수 있으며, 포인터 클라우드 데이터 타입이 아닌 3차원 공간 정보를 표현할 수 있는 데이터 타입이 대신 적용될 수 있다.

PV encoding/SV encoding/light field/point cloud encoding : 시점별로 미리 패킹되거나 깊이 정보 및/또는 위치 정보는 각각 이미지 인코딩 내지 비디오 인코딩 될 수 있다. 동일한 시점의 같은 콘텐츠라도 리전별로 다른 비트 스트림으로 인코딩될 수도 있다. MPEG-I에서 정의될 새로운 codec 및 HEVC-3D, OMAF++ 등 media format이 될 수 있다.

File encapsulation : 전술한 대로 인코딩된 6DoF 비디오 데이터는 인캡슐레이션 처리부인 File-encapsulation에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인코딩 된 6DoF 비디오 데이터는 세그먼트들로 처리할 수 있다.

Metadata(including depth information) : 6DoF 비디오 데이터 처리와 같이 획득, 스티칭, 프로젝션, 시점별 분리/패킹, 인코딩, 인캡슐레이션 과정중에 발생한 메타메이타를 메타메이타 처리부로 전달하거나 메타메이타 처리부에서 생성된 메타메이타를 각 과정으로 전달 할 수 있다. 또한 송신측에서 생성된 메타메이타는 인캡슐레이션 과정에서 하나의 트랙 혹은 파일로 생성하여 수신측으로 전달 할 수 있다. 수신측에서는 방송망이나 브로드밴드를 통해 별도의 파일 혹은 파일 내 트랙으로 저장되어 있는 메타메이타를 수신할 수 있다.

Delivery : 파일 및/또는 세그먼트들은 DASH 혹은 유사한 기능을 가진 새로운 모델을 기반으로 전송을 위한 개별 트랙에 포함될 수 있다. 이때 전송을 위해 MPEG DASH, MMT및/또는 새로운 표준이 적용될 수 있다.

File decapsulation : 수신 장치는 6DoF 비디오/오디오 데이터 수신을 위한 처리를 수행할 수 있다.

Audio deconding/Audio rendering/Loudspeakers/headphones : 6DoF 오디오 데이터는 오디오 디코딩, 렌더링 과정을 거쳐 스피커, 헤드폰을 통해 사용자에게 제공될 수 있다.

PV/SV/light field/point cloud decoding : 6DoF 비디오 데이터는 이미지 내지 비디오 디코딩 할 수 있다. 디코딩에 적용되는 코덱은 HEVC-3D, OMAF++ 및 MPEG에서 6DoF를 위해 새롭게 제안되는 코덱이 적용될 수 있다. 이 때 주요 시점(PV)와 부차 시점(SV)이 분리되어 각 시점 패킹 내에서 비디오 내지 이미지가 각각 디코딩 될 수 있고, 시점 분류와 상관없이 비디오 내지 이미지 디코딩이 될 수 있다. 또한 위치, 깊이 정보를 가지고 있는 라이트필드와 포인트 클라우드 디코딩이 먼저 이루어지고나서 헤드, 포지션, 시선 트래킹의 피드백을 먼저 전달하고 사용자가 위치한 주변부 시점의 이미지 내지 비디오만 분리해 내어 디코딩 될 수도 있다.

Head/eye/position tracking : 전술한 바와 같이 사용자의 헤드, 포지션, 게이즈, 뷰포트 정보 등을 획득, 처리할 수 있다.

Point Cloud rendering : 캡쳐한 비디오/이미지 데이터를 3차원 공간상에 리-프로젝션 할 때 3차원의 공간 위치를 설정하고, 수신한 비디오/이미지 데이터에서 확보하지 못하였으나 사용자가 이동 가능한 위치인 가상 시점의 3차원 공간을 생성하는 과정을 수행한다.

Virtual view synthesis : 전술한 바와 같이 사용자가 위치한 공간에 6DoF 비디오 데이터가 없을 경우 사용자 위치/시점 주변에 이미 확보된 6DoF 비디오 데이터를 활용하여 새로운 시점의 비디오 데이터를 생성하고 합성하는 과정을 수행한다. 실시예에 따라 가상 시점 생성 및/또는 합성 과정은 생략될 수 있다.

Image composition, and rendering : 전술한 바와 같이 사용자의 위치를 중심으로 한 영상을 렌더링 하기 위한 과정으로 사용자의 위치 및 시선에 따라 디코딩 된 비디오 데이터를 이용하거나 가상 시점 생성/합성으로 만들어진 사용자 주변의 비디오 및 이미지를 렌더링 할 수 있다.

도21은 6DoF 공간을 나타낸다.

실시예들에서 프로젝션 전 또는 리-프로젝션 후의 6DoF 공간에 대해 기술하고 그에 대한 시그널링을 수행하기 위하여 도 21과 같은 개념을 사용할 수 있다.

6DoF 공간은 360비디오 혹은 3DoF 공간이 야(Yaw), 피치(Pitch), 롤(Roll)로 설명할 수 있는 것과 달리 이동의 방향을 레이셔널(rational)과 트렌스레이션(translation) 두 종류로 나뉠 수 있다. 레이셔널 이동은 a와 같이 기존의 3DoF 의 방향을 설명한 것과 마찬가지로 야, 피치, 롤 로 설명할 수 있으며 방향의 이동(orientation movement)으로 불릴 수도 있다. 반면 트렌스레이션 이동의 경우는 b와 같이 포지션의 이동으로 불릴 수 있다. 왼쪽/오른쪽(Left/Right), 앞/뒤(Forward/Backward), 위/아래(Up/down) 방향 중 축이 어디로 이동했는지 알려 줄 수 있는 것으로 한 축 이상의 값을 정의하여 중심축의 이동을 설명할 수 있다.

실시예들의 특징은 6DoF 비디오 서비스 및 스트리밍을 위한 아키텍쳐를 제안하고 시그널링 및 파일 저장 방법의 기본 메타데이터를 제안하여 향후 6DoF 관련 메타데이터 및 시그널링 확장을 위한 발명에 활용될 수 있다.

- 제안한 6DoF 송,수신기 아키텍처를 바탕으로 각 과정마다 발생하는 메타데이터를 확장할 수 있다.

- 제안한 아키텍처의 과정간에 발생하는 메타데이터를 제안할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 서비스를 제공하는 콘텐츠의 6DoF 비디오 관련 파라미터를 ISOBMFF 등 파일에 저장 및 시그널링 할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 스트림의 SEI 혹은 VUI를 통해 6DoF 비디오 메타데이터 저장 및 시그널링을 할 수 있다.

리전(리전별 패킹에서의 의미, Region) : 리전(Region) 은 2D 이미지에 프로젝션된 360 비디오 데이터가 리전별 패킹(region-wise packing) 을 통해 팩드 프레임 내에서 위치하게 되는 영역을 의미할 수 있다. 여기서의 리전은 문맥에 따라 리전별 패킹에서 사용되는 리전을 의미할 수 있다. 전술한 바와 같이 리전들을 2D 이미지를 균등하게 나누어 구분되거나, 프로젝션 스킴 등에 따라 임의로 나누어져 구분될 수도 있다.

리전(일반적 의미, region) : 전술한 리전별 패킹에서의 리전과 달리, 사전적 의미로서 리전(region) 이라는 용어가 사용될 수도 있다. 이 경우 리전이란 사전적 의미인 '영역', '구역', '일부분' 등의 의미를 가질 수 있다. 예를 들어 후술할 페이스(face) 의 일 영역을 의미할 때, '해당 페이스의 한 리전' 등과 같은 표현이 사용될 수 있다. 이 경우 리전은 전술한 리전별 패킹에서의 리전과는 구분되는 의미로서, 양자는 서로 무관한, 다른 영역을 지시할 수 있다.

픽쳐 : 픽쳐는 360 비디오 데이터가 프로젝션된 2D 이미지 전체를 의미할 수 있다. 실시예에 따라 프로젝티드 프레임 내지는 팩드 프레임이 픽쳐가 될 수 있다.

서브-픽쳐 : 서브 픽쳐는 전술한 픽쳐의 일부분을 의미할 수 있다. 예를 들어 타일링 등을 수행하기 위해 픽쳐가 여러 서브-픽쳐로 나누어질 수 있다. 이 때 각 서브 픽쳐가 타일이 될 수 있다. 구체적으로, 타일 내지 MCTS 를 기존의 HEVC 와 호환되는 픽쳐 형태로 재구성하는 동작을 MCTS 추출(extraction) 이라고 할 수 있다. 이 MCTS 추출의 결과물은 원래의 타일 내지 MCTS 가 속하는 픽쳐의 서브-픽쳐일 수 있다.

타일 : 서브 픽처의 하위 개념으로서, 서브 픽처가 타일링을 위한 타일로 쓰일 수 있다. 즉, 타일링에 있어서는 서브 픽처와 타일은 동일한 개념일 수 있다. 구체적으로, 본디 타일은 병렬 디코딩을 가능케 하기 위한 툴이나, VR 에 있어서는 독립 디코딩을 위한 툴일 수 있다. VR 에 있어서 타일은, 템포럴 인터 프리딕션(temporal inter prediction) 의 범위를 현재의 타일 내부 범위로 제한한 MCTS (Motion Constrained Tile Set) 을 의미할 수 있다. 이에 이 문서에서 타일은 MCTS 로도 불릴 수 있다.

슈페리컬 리전(Spherical region) : 슈페리컬 리전 내지 슈피어 리전(Sphere region) 은, 360 비디오 데이터가 수신측에서 3D 공간(예를 들어 구면) 상에 렌더링될 때, 그 구면 상의 일 영역을 의미할 수 있다. 여기서 슈페리컬 리전은, 리전별 패킹에서의 리전과는 무관하다. 즉, 슈페리컬 리전이 리전별 패킹에서 정의되었던 리전과 같은 영역을 의미할 필요는 없다. 슈페리컬 리전은 렌더링되는 구면 상의 일 부분을 의미하는 데 사용되는 용어로서, 여기서의 '리전' 은 사전적 의미로서의 '영역'을 뜻할 수 있다. 문맥에 따라 슈페리컬 리전이 단순히 리전이라고 불릴 수도 있다.

페이스(face) : 페이스는 프로젝션 스킴에 따라 각 면을 부르는 용어일 수 있다. 예를 들어 큐브맵 프로젝션이 사용되는 경우, 앞면, 뒷면, 양 옆면, 윗면, 아랫면 등은 페이스라고 불릴 수 있다.

도 22를 참조하면, 실시예들에 따른 구조는 서버(2260), 로봇(2210), 자율 주행 차량(2220), XR 장치(2230), 스마트폰(2240), 가전(2250) 및/또는 HMD(2270) 중에서 적어도 하나 이상이 클라우드 네트워크(2210)와 연결된다. 여기서, 로봇(2210), 자율 주행 차량(2220), XR 장치(2230), 스마트폰(2240) 또는 가전(2250) 등을 장치라 칭할 수 있다. 또한, XR 장치(2230)는 실시예들에 따른 비디오 송수신 장치에 대응되거나 비디오 송수신 장치와 연동될 수 있다.

클라우드 네트워크(2200)는 클라우드 컴퓨팅 인프라의 일부를 구성하거나 클라우드 컴퓨팅 인프라 안에 존재하는 네트워크를 의미할 수 있다. 여기서, 클라우드 네트워크(2200)는 3G 네트워크, 4G 또는 LTE(Long Term Evolution) 네트워크 또는 5G 네트워크 등을 이용하여 구성될 수 있다.

서버(2260)는 로봇(2210), 자율 주행 차량(2220), XR 장치(2230), 스마트폰(2240), 가전(2250) 및/또는 HMD(2270) 중에서 적어도 하나 이상과 클라우드 네트워크(2200)을 통하여 연결되고, 연결된 장치들(2210 내지 2270)의 프로세싱을 적어도 일부를 도울 수 있다.

HMD (Head-Mount Display)(2270)는 실시예들에 따른 XR 디바이스 및/또는 PCC 디바이스가 구현될 수 있는 타입 중 하나를 나타낸다. 실시예들에 따른HMD 타입의 디바이스는, 커뮤니케이션 유닛, 컨트롤 유닛, 메모리 유닛, I/O 유닛, 센서 유닛, 그리고 파워 공급 유닛 등을 포함한다.

이하에서는, 상술한 기술이 적용되는 장치(2210 내지 2250)의 다양한 실시 예들을 설명한다. 여기서, 도 22에 도시된 장치(2210 내지 2250)는 상술한 실시예들에 따른 비디오 송수신 장치와 연동/결합될 수 있다. 이하에서, XR은 실시예들에 따른 3Dof, 3Dof+, 6Dof 및/또는 PCC를 포함할 수 있다.

<XR>

XR 장치(2230)는 XR(AR+VR) 기술이 적용되어, HMD(Head-Mount Display), 차량에 구비된 HUD(Head-Up Display), 텔레비전, 휴대폰, 스마트 폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지, 차량, 고정형 로봇이나 이동형 로봇 등으로 구현될 수도 있다.

XR 장치(2230)는 다양한 센서들을 통해 또는 외부 장치로부터 획득한 3차원 포인트 클라우드 데이터 또는 이미지 데이터를 분석하여 3차원 포인트들에 대한 위치 데이터 및 속성 데이터를 생성함으로써 주변 공간 또는 현실 객체에 대한 정보를 획득하고, 출력할 XR 객체를 렌더링하여 출력할 수 있다. 예컨대, XR 장치(2230)는 인식된 물체에 대한 추가 정보를 포함하는 XR 객체를 해당 인식된 물체에 대응시켜 출력할 수 있다.

<자율주행+XR>

자율 주행 차량(2220)은 XR 기술이 적용되어, 이동형 로봇, 차량, 무인 비행체 등으로 구현될 수 있다.

XR 기술이 적용된 자율 주행 차량(2220)은 XR 영상을 제공하는 수단을 구비한 자율 주행 차량이나, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량 등을 의미할 수 있다. 특히, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량(2220)은 XR 장치(2230)와 구분되며 서로 연동될 수 있다.

XR영상을 제공하는 수단을 구비한 자율 주행 차량(2220)은 카메라를 포함하는 센서들로부터 센서 정보를 획득하고, 획득한 센서 정보에 기초하여 생성된 XR 영상을 출력할 수 있다. 예컨대, 자율 주행 차량(2220)은 HUD를 구비하여 XR 영상을 출력함으로써, 탑승자에게 현실 객체 또는 화면 속의 객체에 대응되는 XR 객체를 제공할 수 있다.

이때, XR 객체가 HUD에 출력되는 경우에는 XR 객체의 적어도 일부가 탑승자의 시선이 향하는 실제 객체에 오버랩되도록 출력될 수 있다. 반면, XR 객체가 자율 주행 차량의 내부에 구비되는 디스플레이에 출력되는 경우에는 XR 객체의 적어도 일부가 화면 속의 객체에 오버랩되도록 출력될 수 있다. 예컨대, 자율 주행 차량(2220)은 차로, 타 차량, 신호등, 교통 표지판, 이륜차, 보행자, 건물 등과 같은 객체와 대응되는 XR 객체들을 출력할 수 있다.

실시예들에 의한 VR (Virtual Reality) 기술, AR (Augmented Reality) 기술, MR (Mixed Reality) 기술 및/또는 PCC(Point Cloud Compression)기술은, 다양한 디바이스에 적용 가능하다.

즉, VR 기술은, 현실 세계의 객체나 배경 등을 CG 영상으로만 제공하는 디스플레이 기술이다. 반면, AR 기술은, 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 보여 주는 기술을 의미한다. 나아가, MR 기술은, 현실세계에 가상 객체들을 섞고 결합시켜서 보여준다는 점에서 전술한 AR 기술과 유사하다. 그러나, AR 기술에서는 현실 객체와 CG 영상으로 만들어진 가상 객체의 구별이 뚜렷하고, 현실 객체를 보완하는 형태로 가상 객체를 사용하는 반면, MR 기술에서는 가상 객체가 현실 객체와 동등한 성격으로 간주된다는 점에서 AR 기술과는 구별이 된다. 보다 구체적으로 예를 들면, 전술한 MR 기술이 적용된 것이 홀로그램 서비스 이다.

다만, 최근에는 VR, AR, MR 기술을 명확히 구별하기 보다는 XR (extended Reality) 기술로 부르기도 한다. 따라서, 본 발명의 실시예들은 VR, AR, MR, XR 기술 모두에 적용 가능하다. 이런 한 기술은 PCC, V-PCC, G-PCC 기술 기반 인코딩/디코딩이 적용될 수 있다.

실시예들에 따른 방법/장치는 자율 주행 서비스를 제공하는 차량에 적용될 수 있다.

자율 주행 서비스를 제공하는 차량은 디바이스와 유/무선 통신이 가능하도록 연결된다.

실시예들에 따른 비디오 송수신 장치는 차량과 유/무선 통신이 가능하도록 연결된 경우, 자율 주행 서비스와 함께 제공할 수 있는 AR/VR/PCC 서비스 관련 콘텐트 데이터를 수신/처리하여 차량에 전송할 수 있다. 또한 포인트 클라우드 데이터 송수신 장치 차량에 탑재된 경우, 비디오 송수신 장치는 사용자 인터페이스 장치를 통해 입력된 사용자 입력 신호에 따라 AR/VR/PCC 서비스 관련 콘텐트 데이터를 수신/처리하여 사용자에게 제공할 수 있다. 실시예들에 따른 차량 또는 사용자 인터페이스 장치는 사용자 입력 신호를 수신할 수 있다. 실시예들에 따른 사용자 입력 신호는 자율 주행 서비스를 지시하는 신호를 포함할 수 있다.

인코더 프리-프로세싱부는 인코더 프리-프로세싱 모듈, 인코더단, 인코딩부로 호칭될 수도 있고, 비디오 전송 장치를 구성하는 장치를 포괄적으로 호칭하는 용어를 의미할 수 있다. 즉, 인코더 프리-프로세싱부는 상술한 비디오 전송 장치에 포함된 구성들인 인터-뷰 리던던시 제거부(Inter-view redundancy removal), 패킹부(Packing) 및/또는 인코더부 등을 포함할 수 있다.

도 23은 3DoF+를 위한 멀티-뷰 비디오에 대하여 실시예들에 따른 프리-인코딩 프로세싱(또는 헤드 모션 페럴렉스, head motion parallax)는 장치(및/또는 동작)을 나타낸다. 본 도면에서 설명한 바와 같이, 각각의 뷰 (또는 뷰 픽처)들은 서로 다른 컴포넌트들, 텍스처 및 뎁스 맵으로 구성될 수 있다. 텍스처 및 뎁스 맵은, 각각의 뷰들에 대한 각각의 컴포넌트의 투영된(projected) 픽처에 의해 생성된 픽처를 의미할 수 있다. 텍스처 및 뎁스 맵은 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection) 및/또는 멀티-뷰 패킹(multi-view packing) 동작에 의해 생성될 수 있다. (Each view could be composed by different components, texture and depth map, which are produced into a projected picture of each component of each view by stitching, rotation, projection and multi-view packing process)

또한, 실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부)는 실시예들에 따른 인터-뷰 리던던시 제거부(또는 실시예들에 따른 프루닝부) 등에 의하여 뷰들(예를 들어, 소스 뷰 픽처들) 간의 리던던시(redundancy)를 제거할 수 있다. 예를 들어, 실시예들에 따른 리던던시 제거부(또는 프루닝부) 또는 비디오 전송 장치는 앵커 뷰(또는 센터 뷰 픽처)와 우측 헤드 모션 뷰(예를 들어, 특정 뷰잉 포지션에 대한 소스 뷰 픽처들) 픽처 간의 리던던시를 제거하여, 우측 헤드 모션 뷰와 관련된 스파스 뷰 픽처 (및/또는 관련 시그널링 정보)등을 생성할 수 있다. 또는, 실시예들에 따른 리던던시 제거부(또는 프루닝부) 또는 비디오 전송 장치는 앵커 뷰(또는 센터 뷰 픽처)와 뎁스 픽처(또는 다른 컴포넌트와 관련된 픽처) 간의 리던던시를 제거하여, 뎁스 픽처(또는 다른 컴포넌트와 관련된 픽처)와 관련된 스파스 뷰 픽처 (및/또는 관련 시그널링 정보)등을 생성할 수 있다.

실시예들에 따른 비디오 전송 장치는 뷰들(예를 들어, 소스 뷰 픽처, 프로젝티드 픽처 및/또는 스파스 뷰 픽처) 간의 리던던시를 제거함으로써 전송 장치의 송신 효율을 극대화할 수 있고, 비트 효율(비트율)을 높임으로써 적은 양의 데이터로 사용자들에게 실제와 같은 360도 영상을 제공할 수 있다.

이러한 프로젝티드 픽처(projected picture) 또는 소스 뷰 픽처들에 대하여 인터-뷰 리던던시 제거가 수행되면, 이들은 2D 이미지 상에 패킹될 수 있다. 즉, 각각의 뷰(view)들 (즉, 멀티 뷰들)에 대한 프로젝티드 픽처(텍스처, 레지듀얼 및/또는 뎁스)를 실시예들에 따른 패킹부(packing) 또는 멀티-뷰 패킹부(multi-view packing, 23004)에 의해 2D 이미지 상으로 패킹할 수 있다. 각각의 뷰에 대한 프로젝티드 픽처(즉, 텍스처, 레지듀얼 및/또는 뎁스)가 패킹된 2D 이미지 상의 픽처를 패킹된 픽처(packed picture)라고 호칭할 수 있다.

패킹된 픽처는 실시예들에 따른 인코더부(23005)에 의해 인코딩될 수 있다. 실시예들에 따른 인코딩부는, 예를 들어 상술한 패킹된 픽처를 싱글 레이어 비디오 인코더(single layer video encoder)에 의해 인코딩될 수 있다. 싱글 레이어 비디오 인코더는 예를 들면 HEVC 또는 퓨터 비디오 코덱(future video codec)일 수 있다.

구체적으로 도 23은 실시예들에 따른 비디오 전송 장치의 블록도를 나타낸다. 실시예들에 따른 비디오 전송 장치는 a pre-encoding process for multi-views 3DoF+ video의 구조를 의미할 수 있다. 실시예들에 따른 비디오 전송 장치는 뷰 1에 대한 처리부(23001) 내지 뷰 N에 대한 처리부(23003), 멀티-뷰 패킹부(23004) 및 인코딩부(또는 인코더, 23005)를 포함할 수 있다.

뷰 1에 대한 처리부(23001)는 뷰 1에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하고, 각각에 대한 텍스처 프로젝티드 픽처(texture projected picture) 및/또는 뎁스 프로젝티드 픽처(depth projected picture)를 생성할 수 있다. 여기서 뷰 1은 실시예들에 다른 앵커 뷰(anchor view)를 의미할 수 있다. 앵커 뷰는 후술할 센터 뷰 픽처(center view picture) 또는 센터 뷰(center view)로 호칭할 수 있다.

뷰 1에 대한 처리부(23001)는 뷰 1에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하는 경우 뷰 1에 대한 메타데이터를 생성할 수 있다. 여기서 뷰 1에 대한 메타데이터는 스티칭, 뷰 1에 대한 로테이션 및/또는 프로젝션을 수행하는 방법에 관한 시그널링 정보를 포함할 수 있다. 여기서 뷰 1에 대한 메타데이터는 실시예들에 따른 리컨스트럭션 파라미터들(reconstruction parameters)을 포함할 수 있다.

뷰 2에 대한 처리부(23002)는 실시예들에 따른 뷰 1 (즉, 앵커 뷰)가 아닌 뷰 2에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하고, 각각에 대한 텍스처 프로젝티드 픽처(texture projected picture) 및/또는 뎁스 프로젝티드 픽처(depth projected picture)를 생성할 수 있다. 또한, 뷰 2에 대한 처리부는 텍스처 프로젝티드 픽처(texture projected picture)에 대하여 실시예들에 따른 인터-뷰 리던던시 제거(inter-view redundancy removal)를 더 수행하여 레지듀얼 프로젝티드 픽처(residual projected picture)를 생성할 수 있다. 레지듀얼 프로젝티드 픽처는 후술할 레퍼런스 뷰 픽처 및/또는 스파스 뷰 픽처를 의미할 수 있다. 이 때, 실시예들에 따른 인터-뷰 리던던시 제거는 뷰 1(즉, 앵커 뷰)에 대응하는 텍스처 프로젝티드 픽처(texture projected picture)에 기초하여 레지듀얼 프로젝티드 픽처(residual projected picture)를 생성할 수 있다.

마찬가지로, 뷰 2에 대한 처리부(23002)는 뷰 2에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하는 경우 뷰 2에 대한 메타데이터를 생성할 수 있다. 여기서 뷰 2에 대한 메타데이터는 스티칭, 뷰 2에 대한 로테이션 및/또는 프로젝션을 수행하는 방법에 관한 시그널링 정보를 포함할 수 있다. 여기서 뷰 2에 대한 메타데이터는 실시예들에 따른 리컨스트럭션 파라미터들(reconstruction parameters)을 포함할 수 있다.

뷰 N에 대한 처리부(23003)는 실시예들에 따른 뷰 1 (즉, 앵커 뷰)가 아닌 뷰 N에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하고, 각각에 대한 텍스처 프로젝티드 픽처(texture projected picture) 및/또는 뎁스 프로젝티드 픽처(depth projected picture)를 생성할 수 있다. 또한, 뷰 N에 대한 처리부는 텍스처 프로젝티드 픽처(texture projected picture)에 대하여 실시예들에 따른 인터-뷰 리던던시 제거(inter-view redundancy removal)를 더 수행하여 레지듀얼 프로젝티드 픽처(residual projected picture)를 생성할 수 있다. 레지듀얼 프로젝티드 픽처는 후술할 레퍼런스 뷰 픽처 및/또는 스파스 뷰 픽처를 의미할 수 있다. 이 때, 실시예들에 따른 인터-뷰 리던던시 제거는 뷰 1(즉, 앵커 뷰)에 대응하는 텍스처 프로젝티드 픽처(texture projected picture)에 기초하여 레지듀얼 프로젝티드 픽처(residual projected picture)를 생성할 수 있다.

마찬가지로, 뷰 N에 대한 처리부(23003)는 뷰 N에 대응하는 텍스처 소스 이미지(texture source image) 및/또는 뎁스 소스 이미지(depth source image) 각각에 대하여 실시예들에 따른 스티칭/로테이션/프로젝션(stitching/rotation/projection)을 수행하는 경우 뷰 N에 대한 메타데이터를 생성할 수 있다. 여기서 뷰 N에 대한 메타데이터는 스티칭, 뷰 N에 대한 로테이션 및/또는 프로젝션을 수행하는 방법에 관한 시그널링 정보를 포함할 수 있다. 여기서 뷰 N에 대한 메타데이터는 실시예들에 따른 리컨스트럭션 파라미터들(reconstruction parameters)을 포함할 수 있다.

멀티-뷰 패킹부(Multi-view packing, 23004)는 뷰 1에 대한 처리부(23001)로부터 생성된 뷰 1에 대한 텍스처 프로젝티드 픽처, 뷰 1에 대한 뎁스 프로젝티드 픽처, 뷰 1에 대한 메타데이터, 뷰 2에 대한 처리부(23002)로부터 생성된 뷰 2에 대한 텍스처 프로젝티드 픽처, 뷰 2에 대한 뎁스 프로젝티드 픽처, 뷰 2에 대한 메타데이터, ……, 뷰 N에 대한 처리부(23001)로부터 생성된 뷰 N에 대한 텍스처 프로젝티드 픽처, 뷰 N에 대한 뎁스 프로젝티드 픽처 및/또는 뷰 N에 대한 메타데이터를 패킹하여 패킹된 픽처(packed picture)를 생성할 수 있다. 멀티-뷰 패킹부(23004)는 실시예들에 따른 패킹부를 의미할 수 있고, 멀티-뷰 패킹부는 멀티-뷰 패킹 모듈 등으로 호칭할 수 있다.

인코더부(23005)는 멀티-뷰 패킹부(23004)로부터 생성된 패킹된 픽처(packed picture)를 실시예들에 따른 인코딩을 수행할 수 있다. 인코더부는 실시예들에 따른 인코딩부를 의미할 수 있다. 인코딩부는 HEVC 또는 퓨쳐 비디오 코덱(future video codec)과 같이 싱글-레이어 비디오 인코더(single layer video encoder) 또는 그에 대응하는 장치로 인해 인코딩될 수 있다.

실시예들에 따라 뷰 1에 대한 처리부(23001), 뷰 2에 대한 처리부(23002), ……, 뷰 N에 대한 처리부(23003), 멀티-뷰 패킹부(23004) 및/또는 인코더부(23005) 각각은 하드웨어에 대응될 수 있고, 실시예들에 따라 비디오 전송 장치가 뷰 1 에 대한 처리부에 따른 처리, 뷰 2 에 대한 처리부에 따른 처리, 뷰 N 에 대한 처리부에 따른 처리, 멀티-뷰 패킹 및/또는 인코딩 동작을 수행할 수 있다.

따라서, 실시예들에 따른 비디오 전송 방법은 복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계; 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계; 및 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계; 를 포함할 수 있다.

또한, 실시예들에 따른 비디오 전송 장치는, 복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들로부터 인터-뷰 리던던시 를 제거하는 인터-뷰 리던던시 제거부(inter-view redundancy remover); 인터-뷰 리던던시 제거된 픽처들을 패킹하는 패커(packer); 패킹된 픽처들 및 시그널링 정보를 인코딩하는 인코더(encoder); 를 포함할 수 있다.

따라서, 실시예들에 따른 송수신 장치는 3DoF+ 비디오를 전송하기 위한 대역폭과 저장 장치의 저장공간을 줄일 수 있고, 헤드 모션 시차 및/또는 양안 시차가 제공되는 높은 품질의 3DoF+ 비디오를 보장할 수 있다.

또한, 이러한 구성으로 인해, 수신기는 헤드 모션 시차 및/또는 양안 시차가 제공되는 비디오 또는 다른 시점을 생성 할 수 있으며, 수신기는 변화하는 위치로 인터렉티브(interactive)한 비디오를 생성 할 수 있다.

디코더 포스트-프로세싱부는 디코더 포스트-프로세싱 모듈, 디코더단, 디코딩부 등으로 호칭될 수도 있고, 비디오 수신 장치를 구성하는 장치를 포괄적으로 호칭하는 용어를 의미할 수 있다. 즉, 디코더 포스트-프로세싱부는 상술한 비디오 수신 장치에 포함된 구성들인 디코더(Decoder), 뷰 리저네레이션부(View regeneration), 뷰 합성부(View synthesis), 렌더링/뷰포트 제너레이터(rendering/viewport generation)등을 포함할 수 있다.

도 24는 멀티-뷰 3DoF+ 비디오를 수신하여 처리하는 실시예들에 따른 포스트-디코더 프로세싱부를 설명한다. 실시예들에 따른 포스트-디코더 프로세싱부는 멀티-뷰 3DoF+ 비디오를 포함하는 비트스트림을 수신하여 각각의 뷰포인트(viewpoint)에 대한 뷰(view)를 나타내는 복수의 프로젝티드 픽처(projected picture)들을 생성한다.

이 때, 실시예들에 따른 비디오 수신 장치는 반드시 모든 뷰잉 포지션들(또는 모든 수신하는 픽처들)을 디스플레이하지 않을 수 있다. 따라서, 실시예들에 따른 비디오 수신 장치는 사용자(viewer)의 뷰포인트(viewpoint) 및/또는 뷰잉 포지션(viewing position)에 대한 정보에 기초하여, 목표하는 프로젝티드 픽처를 디코딩하여 재생성(regenerate) 및/또는 합성(synthesis)할 수 있다. 즉, 비디오 수신 장치는 수신한 비트스트림 내에 포함된 모든 픽처들 중 목표하는 프로젝티드 픽처 이외에 다른 픽처들에 대해서는 디코딩하거나 언패킹하지 않을 수 있다. 여기서, 목표하는 프로젝티드 픽처는 타겟 뷰(target view) 픽처로 호칭될 수도 있다.

다시 말하면, 실시예들에 따른 비디오 수신 장치는 타겟 뷰 픽처를 생성하거나 합성하기 위하여 사용자에 대한 뷰잉 포지션(viewing position) 및/또는 뷰 포인트(viewpoint) 정보를 참조할 수 있다. 따라서, 실시예들에 따른 비디오 수신 장치에 포함된 구성요소 일부 또는 전부는 사용자에 대한 뷰잉 포지션(viewing position) 및/또는 뷰 포인트(viewpoint) 정보에 기초하여 수행될 수 있다.

예를 들면, 실시예들에 따른 언패킹부(unpacking, 24003)는 수신한 뷰 픽처들 중 사용자(viewer)와 관련이 있는 뷰 픽처들만 언패킹할 수 있다. 이 경우, 실시예들에 따른 언패킹부는 사용자(viewer)에 대한 뷰잉 포지션 정보 및/또는 뷰포트 정보에 기초하여 언패킹을 수행할 수 있다. 또 다른 예로, 실시예들에 따른 언패킹부(24003)은 복수의 뷰포인트 및 각각의 뷰포인트에 대응하는 복수의 뷰들 중 뷰포인트 A(viewpoint A)에 대한 뷰B(view B)를 선택하여, 뷰 B에 포함된 텍스처, 레지듀얼 및/또는 뎁스 맵을 생성(또는 추출)할 수 있다.

또한, 선택하여 생성(추출)된 뷰가 실시예들에 따른 수신 장치에 디스플레이되는 전체 뷰(full view)가 아닌 경우, 실시예들에 따른 수신 장치는 텍스처 뎁스 리제너레이션 프로세스 및/또는 뷰 리제너레이션 프로세스를 수행하여, 타겟 뷰를 리컨스트럭트(reconstruct, 즉, 재생성 및/또는 합성)할 수 있다. 실시예들에 따른 수신 장치가 타겟 뷰를 리컨스트럭트하는 과정은 해당 뷰 또는 다른 뷰들에 포함된 텍스터, 뎁스 및/또는 레지듀얼 중 일부 또는 전부를 이용하여 수행될 수 있다.

구체적으로 도 24는 실시예들에 따른 비디오 수신 장치의 블록도를 나타낸다. 실시예들에 따른 비디오 수신 장치는 a post-decoder process for multi-views 3DoF+ video 의 구조를 의미할 수 있다. 실시예들에 따른 비디오 수신 장치는 디코더부(24001), 하나 또는 그 이상의 뷰포인트(viewpoint)에 대한 멀티-뷰 언패킹부(24002), 하나 또는 그 이상의 뷰(view)에 대한 언패킹부(24003), 뷰(view)에 대한 뷰 리제너레이션부(view regeneration, 24004), 스피어 코오디네이트 변환/뷰 합성/렌더링부(sphere coordinate conversion/view synthesis/rendering, 24005) 및 디스플레이부(24006)을 포함할 수 있다.

HEVC 디코더부(HEVC decoder, 24001)는 비디오 수신 장치로 수신되는 비트스트림을 디코딩(decoding)할 수 있다. HEVC 디코더부는 실시예들에 따른 디코더(decoder)를 의미할 수 있다. HEVC 디코더부는 하나 또는 그 이상의 뷰포인트(viewpoint)에 대한 멀티-뷰들을 생성 또는 출력할 수 있다.

하나 또는 그 이상의 뷰포인트(viewpoint)에 대한 멀티-뷰 언패킹부(24002)는 디코딩된 비트스트림에 포함된 각각의 뷰포인트(viewpoint)에 대한 픽처(또는 뷰)들을 선택(또는 언패킹)할 수 있다.

하나 또는 그 이상의 뷰들에 대한 멀티-뷰 언패킹부(24003)은 선택된 뷰포인트에 대한 뷰들 중 하나 또는 그 이상의 픽처들을 선택(또는 언패킹)할 수 있다.

뷰 리제너레이션부(24004)는 하나 또는 그 이상의 뷰포인트(viewpoint)에 대한 멀티-뷰 언패킹부(24002) 및/또는 하나 또는 그 이상의 뷰들에 대한 멀티-뷰 언패킹부(24003)에 의해 선택된 하나 또는 그 이상의 뷰들(또는 픽처들)로부터 실시예들에 따른 재생성된 뷰를 생성할 수 있다.

스피어 코오디네이트 변환/뷰 합성/렌더링부(sphere coordinate conversion/view synthesis/rendering, 24005)는 뷰 리제너레이션부(24004)에 의해 생성된 재생성된 뷰(regenerated view)를 이용하여 임의의 시점에 대한 (또는 타겟 뷰잉 포지션에 대한 픽처)를 렌더링할 수 있다.

디스플레이부(24006)은 렌더링된 임의의 시점에 대한 (또는 타겟 뷰잉 포지션에 대한 픽처)를 디스플레이할 수 있다.

실시예들에 따라 HEVC 디코더부(24001), 하나 또는 그 이상의 뷰포인트(viewpoint)에 대한 멀티-뷰 언패킹부(24002), 하나 또는 그 이상의 뷰들에 대한 멀티-뷰 언패킹부(24003), 뷰 리제너레이션부(24004), 스피어 코오디네이트 변환/뷰 합성/렌더링부(sphere coordinate conversion/view synthesis/rendering, 24005) 및/또는 디스플레이부(24006) 각각은 하드웨어에 대응될 수 있고, 실시예들에 따라 비디오 전송 장치가 이들의 전부 또는 일부를 수행할 수 있다.

실시예들에 따른 비디오 수신 방법은 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계; 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계, 언패킹된 비트스트림은 시그널링 정보를 포함함; 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계; 및, 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계; 를 포함할 수 있다.

또한, 실시예들에 따른 비디오 수신 장치는, 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 디코더(decoder); 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 언패커(unpacker); 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 뷰 재생성부(view regenerator); 및, 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 뷰 합성부(view synthesizer); 를 포함할 수 있다.

도 25는, 3DoF+를 위한 멀티-뷰 비디오에 대하여 실시예들에 따른 프리-인코딩 프로세싱(또는 헤드 모션 페럴렉스, head motion parallax)는 장치(및/또는 동작)을 나타낸다. 인접한 뷰잉 포지션들 내에 포함된 픽처들은 높은 상관성(high correlation, 또는 높은 유사성)을 가질 수 있다. 따라서, 이러한 높은 유사성을 가지는 뷰잉 포지션들 내의 뷰들은 불필요한 픽셀들(즉, 공통된 요소가 많아 중복되는 요소들, redundant pixel information between pictures)이 존재할 수 있다. 따라서 실시예들에 따른 프리-인코딩 프로세싱은 이러한 불필요한 픽셀들 즉, 리던던시(redundany)를 제거할 수 있다. 이러한 과정은 실시예들에 따른 인터-뷰 리던던시 제거부에 의해 수행될 수 있다.

프리-인코딩 프로세싱부가 상술한 리던던시를 제거하면, 상술한 제거된 픽셀들을 예측(estimate)하기 위한 적은 수의 픽처(또는 픽처들)가 사용된다. 즉, 프리-인코딩 프로세싱부가 상술한 리던던시를 제거한 후, 남아 있는 적은 수의 픽처(또는 픽처들)은 예측할 수 없거나 예측하기 곤란한 요소들을 나타내는 정보(또는 픽셀들)을 포함한다.

이 때, 보존되는(즉, 남아 있는) 픽처들의 뷰잉 포지션(viewing position)에 관한 정보, 다른 뷰잉 포지션에 관한 정보, 보존되는 픽처들로부터 다른 뷰들이 어떻게 생성(또는 도출)될 수 있는지에 대한 정보들이 시그널링 정보 또는 다른 픽처들에 의해 생성될 수 있다. 또한, 전체 뷰잉 포지션을 대표하는 앵커 뷰(또는 센터 뷰)에 대한 정보가 생성될 수 있다. 이러한 정보들을 포함하는 시그널링 정보는 리컨스트럭션 파라미터(reconstruction parameter)에 포함될 수 있다. 리컨스트럭션 정보는 뷰 리제너레이션 정보 SEI 메시지(view regeneration information SEI message)또는 텍스처 뎁스 리제너레이션 정보 SEI 메시지(texture depth regeneration information SEI message)에 포함될 수도 있다.

프리-인코딩 프로세싱부가 상술한 리던던시를 제거하면, 리던던시가 제거된 픽처들을 하나 또는 그 이상의 픽처로 패킹할 수 있다. 즉, 남아 있는 픽처들(즉, 레퍼런스 뷰 픽처들, 스파스 뷰 픽처들, 패치들(patches), 레지듀얼들(residuals) 등)을 병합할 수 있다. 이 때, 프리-인코딩 프로세싱부는 패킹에 관한 정보를 생성할 수 있다. 예를 들면, 패킹된 경우 특정 픽처(또는 패치들, 레지듀얼들, 레퍼런스 뷰 픽처들, 스파스 뷰 픽처들 등)의 위치에 관한 정보, 크기(size)에 관한 정보, 픽셀의 타입(type)에 관한 정보 등을 포함할 수 있다. 이러한, 정보를 패킹 메타데이터로 호칭할 수도 있으며, 이는 멀티뷰 리전-와이즈 패킹 정보 SEI 메시지(Multiview region-wise packing information SEI message)에 의해 전송될 수 있다.

구체적으로 도 25는 실시예들에 따른 비디오 전송 장치의 블록도를 나타낸다. 구체적으로 실시예들에 따른 비디오 전송 장치는 인코더 프리-프로세싱부를 포함할 수 있다. 실시예들에 따른 비디오 전송 장치는 인터-뷰 리던던시 제거부(Inter-view redundancy removal, 25001), 패킹부(Packing, 25002) 및/또는 인코더부(25003)를 포함할 수 있다.

인코더 프리-프로세싱부는 인코더 프리-프로세싱 모듈, 인코더단, 인코딩부로 호칭될 수도 있고, 비디오 전송 장치를 구성하는 장치를 포괄적으로 호칭하는 용어를 의미할 수 있다. 즉, 인코더 프리-프로세싱부는 상술한 비디오 전송 장치에 포함된 구성들인 인터-뷰 리던던시 제거부(Inter-view redundancy removal, 25001), 패킹부(Packing, 25002) 및/또는 인코더부(25003)를 포함할 수 있다.

인터-뷰 리던던시 제거부(Inter-view redundancy removal, 25001)는 복수의 뷰잉 포지션(viewing position)들에 대한 비디오 시퀀스(video sequence)들을 수신하여 비디오 시퀀스에 포함된 복수의 뷰잉 포지션(viewing position)들에 대한 인접한 뷰 간에 리던던시(redundancy)를 제거한다. 인터-뷰 리던던시 제거부(25001)는 뷰들 간에 리던던시가 제거된 텍스쳐 픽쳐(texture picture), 뎁스 픽쳐(depth picture), 텍스쳐 패치(texture patch) 및/또는 텍스쳐 레지듀얼(texture residual)를 출력할 수 있다. 여기서, 멀티 뷰잉 포지션들에 대한 비디오 시퀀스들(video sequences for multiple viewing positions)은 상술한 뷰잉 포지션들에 대한 이미지들 또는 소스 이미지(source image)를 의미하거나 포함할 수 있다.

이 때, 인터-뷰 리던던시 제거부는 리컨스트럭션 파라미터들(reconstruction parameters)을 생성할 수 있다. 리컨스트럭션 파라미터들은 실시예들에 따른 수신 단의 뷰 리제너레이션(view regeneration)을 수행함에 있어 필요한 시그널링 정보를 의미할 수 있다. 예를 들어, 리컨스트럭션 파라미터는 도 31에서 나타난 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다.

패킹부(Packing, 25002)는 인터-뷰 리던던시 제거부(25001)로부터 생성된 픽처들(텍스쳐 픽쳐, 뎁스 픽쳐, 텍스쳐 패치 및/또는 텍스쳐 레지듀얼)을 패킹하여 하나 또는 그 이상의 패킹된 픽처들을 생성할 수 있다. 패킹부는 패킹 메타데이터(packing metadata)를 더 생성할 수 있다. 패킹 메타데이터는 실시예들에 따른 언패킹(unpacking)을 수행하기 위해 필요한 시그널링 정보를 의미할 수 있다. 예를 들어, 패킹 메타데이터는 도 31에서 나타난 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다.

인코더부(Encoding, 25003)은 패킹부로부터 수신된 패킹된 픽처들을 인코딩하여 비트스트림을 출력할 수 있다. 인코더부는 도 23 또는 상술한 실시예들에 따른 인코더부를 의미할 수 있다. 인코더부는 패킹된 픽처뿐 아니라 실시예들에 따른 패킹 메타데이터(packing metadata) 및/또는 리컨스트럭션 파라미터들(reconstruction parameters)를 더 인코딩할 수 있다.

실시예들에 따라 인터-뷰 리던던시 제거부(25001), 패킹부(25002), 인코더부(25003) 각각은 하드웨어에 대응될 수 있고, 실시예들에 따라 비디오 전송 장치가 인터-뷰 리던던시 리부빙, 패킹 및/또는 인코딩 동작을 수행할 수 있다.

실시예들에 따른 비디오 전송 방법은 복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계; 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계; 및 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계; 를 포함할 수 있다.

도 26은 멀티-뷰 3DoF+ 비디오에 대한 디코더 포스트-프로세싱의 블록도를 나타낸다.

실시예들에 따른 디코더 포스트 프로세싱부는(또는, 비디오 데이터 수신 장치는) 비트스트림을 수신하여 디코딩부(Decodings, 26001)에 의해 디코딩(decoding)할 수 있다. 디코딩된 비트스트림은 아웃풋 픽처(output picture)들로 호칭할 수도 있다.

아웃풋 픽처들(또는 디코딩된 비트스트림)은 언패킹(26002)부에 의해 언패킹될 수 있다. 이 때, 실시예들에 따른 언패킹부는 실시예들에 따른 패킹 메타데이터에 의해 수행될 수 있다. 패킹 메타데이터는 수신한 비트스트림이 디코딩된 경우, 디코딩된 비트스트림 내 포함된 픽처들 중 어떤 픽처들이 언패킹되어 출력되어야 하는지, 어떻게 출력되어야 하는지 등을 나타낼 수 있다. 예를 들면, 실시예들에 따른 패킹 메타데이터는 타겟 픽처들(target pictures)의 크기, 타입, 위치, 뷰잉 포지션 등에 관한 정보를 포함할 수 있다.

언패킹 과정(un-packing process)이 수행된 후, 언패킹된 픽처들에 포함되지 않은 빠진 픽처들(missing pictures, 즉, 빠진 뷰잉 포지션에 대한 픽처들)을 뷰 재생성(view regeneration) 및/또는 뷰 합성(view synthesis) 동작에 의해 복구(또는 재생, restore)될 수 있다. 뷰 재생성 동작은 텍스처 뎁스 리제너레이션 프로세스(texture depth regeneration process) 및/또는 텍스처 뎁스 재생성 동작으로 호칭될 수도 있다. 뷰 재생성 동작은 리컨스트럭션 파라미터(reconstructiuon parameter)들에 기초하여 수행될 수 있다. 리컨스트럭션 파라미터에는 언패킹된 픽처들(예를 들어, 패치들(patches), 레지듀얼들(residuals))의 크기 및 위치에 대한 정보, 제거된 픽셀 값들을 예측(estimating)하는 방법에 관한 정보, 빠진(missing) 픽셀 값들을 재생성하는 방법에 관한 정보, 블록 바운더리 제거(block boundary removal)에 대한 포스트-필터링 파라미터들을 포함할 수 있다.

재생성된 픽처들을 이용하여, 실시예들에 따른 뷰 합성부(view synthesis)는 사용자(viewer)들의 뷰잉 포지션에 대한 하나의 뷰(view)를 합성할 수 있다.

구체적으로, 도 26은 실시예들에 따른 비디오 수신 장치의 블록도를 나타낸다. 실시예들에 따른 비디오 수신 장치는 실시예들에 따른 포스트-프로세싱부를 포함할 수 있다. 실시예들에 따른 비디오 수신 장치는 디코더부(26001), 언패킹부(26002), 뷰 리제너레이션부(26003) 및/또는 뷰 합성부(26004)를 포함할 수 있다.

디코더부(Decoding, 26001)는 실시예들에 따른 비디오 수신 장치로부터 수신되는 비트스트림을 디코딩하여 패킹된 뷰(또는 픽처들) 및/또는 관련 시그널링 정보를 생성 또는 출력할 수 있다. 디코더로부터 출력되는 관련 시그널링 정보는 예를 들어 패킹 메타데이터(packing metadata), 리컨스트럭션 파라미터(reconstruction parameter)들, 뷰 합성 파라미터(view synthesis parameter)들을 포함할 수 있다. 패킹 메타데이터는 실시예들에 따른 언패킹부(26002)가 언패킹을 수행하기 위해 필요한 시그널링 정보일 수 있다. 리컨스트럭션 파라미터들은 실시예들에 따른 뷰 리제너레이션부(26003)가 뷰 재생성을 수행하기 위해 필요한 시그널링 정보일 수 있다. 뷰 합성 파라미터들은 실시예들에 따른 뷰 합성부(26004)가 뷰 합성(또는 뷰 신테시스)을 수행하기 위해 필요한 시그널링 정보일 수 있다. 디코더부는 수신단 내에서 생성되는 정보로 수신단의 뷰잉 포지션 및/또는 뷰포트(viewport) 정보에 기초하여 디코딩을 수행할 수 있다.

실시예들에 따른 뷰잉 포지션 및/또는 뷰포트(viewport) 정보는 사용자의 뷰잉 포시션 및/또는 뷰포트에 관한 정보이다. 실시예들에 따른 디코더부(26001)는 수신한 비트스트림에 포함된 픽쳐들을 모두 디코딩할 수 있다. 실시예들에 따른 디코더부(26001)는 수신한 비트스트림에 포함된 픽쳐들을 뷰잉 포지션 및/또는 뷰포트 정보에 기반하여 뷰잉 포지션 및/또는 뷰포트 정보에 대응하는 픽쳐들을 디코딩할 수 있다. 실시예들에 따른 디코더부(26001)는 사용자가 보는 뷰잉 포지션 및/또는 뷰포트에 관한 픽쳐들만 효율적으로 디코딩할 수 있는 효과를 제공할 수 있다.

언패킹부(Un-packing, 26002)는 디코더부에 의해 디코딩된 비트스트림에 포함된 패킹된 뷰(또는 패킹된 픽처들)을 언패킹하여 하나 또는 그 이상의 텍스처 픽처들(texture pictures), 뎁스 픽처들(depth pictures), 텍스처 패치들(texture patches) 및/또는 텍스처 레지듀얼들(texture residuls)를 생성 또는 출력할 수 있다. 언패킹부는 디코더부에 의해 디코딩된 비트스트림에 포함된 시그널링 정보에 포함된 패킹 메타데이터(packing metadata)에 기초하여 언패킹을 수행할 수 있다. 예를 들어, 패킹 메타데이터는 도 31에서 나타난 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다.

뷰 리제너레이션부(View regeneration, 26003)은 언패킹부에 의해 생성/출력된 하나 또는 그 이상의 텍스처 픽처들(texture pictures), 뎁스 픽처들(depth pictures), 텍스처 패치들(texture patches) 및/또는 텍스처 레지듀얼들(texture residuls)에 기초하여 재생성된 뷰들을 생성 또는 출력할 수 있다. 재생성된 뷰는, 하나 또는 복수의 뷰잉 포지션들에 대한 텍스처 픽처(texture picture of a single or multiple viewing positions) 및/또는 하나 또는 복수의 뷰잉 포지션들에 대한 뎁스 픽처(depth picture of a single or multiple viewing positions)를 의미할 수 있다. 이 때, 뷰 리제너레이션부(26003)은 디코더부에 의해 디코딩된 비트스트림에 포함된 시그널링 정보에 포함된 리컨스트럭션 파라미터들(reconstruction parameters)에 기초하여 뷰 재생성을 수행할 수 있다. 리컨스트럭션 파라미터들은 도 31에서 나타난 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다.

뷰 신테시스(View synthesis, 26004)는 뷰 리제너레이션부에 의해 생성된 재생성된 뷰에 기초하여 타겟 뷰잉 포지션의 픽처(picture of the target viewing position)를 생성할 수 있다. 타겟 뷰잉 포지션의 픽처(picture of the target viewing position)는, 임의의 뷰잉 포지션(arbitrary viewing position)에 대한 픽처를 의미할 수 있다. 이 때, 뷰 신테시스는 디코더부에 의해 디코딩된 비트스트림에 포함된 시그널링 정보에 포함된 실시예들에 따른 뷰 합성 파리미터들(view synthesis parameters)에 기초하여 뷰 신테시스(view synthesis)을 수행할 수 있다. 뷰 합성 파라미터들(view synthesis parameters)는 실시예들에 따른 뷰 신테시스(view synthesis)을 수행함에 있어 필요한 시그널링 정보를 의미할수 있다. 뷰 합성 파라미터들은 도 31에서 나타난 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다.

도 27은 실시예들에 따른 인코더 프리-프로세싱부의 인터-뷰 리던던시 제거부를 나타낸다.

- 센터 뷰 생성부(Center view generation, 또는 센터 뷰 제너레이션부, 27002) : 수신한 픽처들(예를 들어, 소스 뷰 픽처들)로부터, 뷰잉 포지션들의 그룹에 대한 센터 뷰를 생성한다. 실시예들에 따른 센터 뷰 생성부는 센터 뷰 픽처(center view picture)를 생성할 수 있고, 및/또는 센터 뷰 제너레이션 정보(center view generation information)을 더 생성할 수 있다. 구체적으로, Center view picture는 multi-spherical video/image의 중심 위치에 대한 spherical video/image를 의미할 수 있다. 또한, 입력 영상에 포함되어 있거나, 없는 경우 실시예들에 따른 센터 뷰 제너레이션의 가상시점생성을 통해 만들어 낼 수도 있다.

- 중간 뷰 합성부(Intermediate view synthesis, 27003): 실시예들에 따른 전송 장치가, 소스 뷰들(또는 제공된 뷰들, provided views)에 따라 생성된 뷰들을 이용하는 경우, 중간 뷰가 합성될 수 있다(if the processor uses generated views on top of the provided views (or source view), intermediate view could be synthesized). 실시예들에 따르면, 중간 뷰 합성부는 프리-제너레이션 정보의 추가 정보를 포함하는 중간 뷰들을 출력할 수 있다. 나아가, 실시예들에 따른 전송 장치는 디코더 포스트-프로세싱부로 중간 뷰 합성과 관련된 정보를 전송할 수 있다.

- 프루닝부(Pruning, 27004) : 실시예들에 따른 프루닝부는, 실시예들에 따른 소스 뷰(source view), 센터 뷰(center view) 및/또는 중간 뷰(intermediate view)를 이용하여, 각각의 픽처들에 대한 리던던시를 제거할 수 있다. 실시예들에 따른 프루닝부는 스파스 뷰 픽처들(sparse view pictures), 레퍼런스 뷰 픽처들(reference view pictures)을 생성할 수 있다. 스파스 뷰 픽처는, 특정 뷰잉 포지션에 대하여, 예측할 수 없는 정보가 포함된(즉, 특이한(unique) 정보/픽셀들을 포함하는) 픽처를 의미한다. 즉, 스파스 뷰 픽처는 프루닝을 수행할 복수의 픽처들 간 공통적으로 존재하는 정보들이 제거된 픽처를 나타낼 수 있다. 레퍼런스 뷰 픽처는, 특정 뷰잉 포지션에 대하여 기본적인 정보/픽처를 제공할 수 있는 픽처를 의미할 수 있다. 여기서, 실시예들에 따른 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)이 생성될 수 있다.

- 스파스 뷰 프루닝부(Sparse view pruning, 27005) : 스파스 뷰 프루닝부는 실시예들에 따른 프루닝부에서 생성된 스파스 뷰 픽처들을 이용하여, 해당 스파스 뷰 픽처들에 대한 리던던시를 제거할 수 있다. 여기서, 실시예들에 따른 스파스 뷰 프루닝부는 프루닝된 스파스 뷰 픽처(pruned sparse view picture) (들) 및/또는 관련 메타데이터를 생성할 수 있다. 관련 메타데이터는 해당 뷰잉 포지션의 타겟 뷰잉 포지션에 대한 정보(metadata which indicate the target viewing position), 레퍼런스 스파스 뷰(reference sparse view)에 대한 정보, 스파스 뷰 리제너레이션 방법을 포함할 수 있다. 예를 들어, 관련 메타데이터는 target_view_id , component_id, component_type, pruned_sparse_view_present_flag, reference_sparse_view_present_flag sparse_view_regeneration_type, output_sparse_view_id, pruned_sparse_view_id, and reference_sparse_view_id 등을 포함할 수 있다.

실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션(27001, rotation/projection)부, 센터 뷰 생성부(27002, center view genearation module, 센터 뷰 제너레이터), 중간 뷰 합성부(27003, intermediate view synthesizer, 인터미디에이트 뷰 신테사이저), 프루닝부(27004, pruner, 프루너), 스파스 뷰 프루닝부(27005, sparse view pruner, 스파스 뷰 프루너), 패커(27006, packer) 및/또는 인코딩부(27007, encoder, 인코더)를 포함한다.

실시예들에 따른 로테이션/프로젝션부(27001) (또는 로테이팅/프로젝팅)는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 회전 및/또는 투사한다. 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)이 회전 및/또는 투사 될 수 있다. 로테이터/프로젝터의 출력은 실시예들에 따라 소스 뷰 픽쳐(들)이라고 지칭 될 수 있는 픽쳐(텍스처/깊이) 및/또는 회전/투영 된 픽쳐이다.

실시예들에 따른 센터 뷰 생성기 (27002) (또는 센터 뷰 생성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이)로부터 센터 뷰 픽처(center view picture) 및 센터 뷰(center view)에 대한 프로파일/특성에 관한 센터 뷰 제너레이션 정보(center view generation information)를 포함하는 시그널링 정보를 생성한다.

인터미디에이트 뷰 신시사이저 (27003) (또는 중간 뷰 합성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이) (소스 뷰 픽처)로부터 인터미디에이트 뷰 픽처(intermediate view picture)를 합성하고 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommandataion information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 수신기 (디코더)에서 데이터를 디코딩하는데 사용될 수 있다.

실시예들에 따른 프루너(27004) (또는 프루닝)는 픽쳐 사이의 리던던시를 제거한다. 프루닝은 뷰 간 리던던시를 제거함을 나타낸다. 이 프로세스는 인터-뷰 리던던시 리무벌로 지칭될 수 있다. 실시 예들에 따르면, 프루너의 입력은 센터 뷰 픽쳐, 소스 뷰 픽쳐 및/또는 인터미디에이트 뷰 픽쳐를 포함한다. 또한, 프루닝된 스파스 뷰(들)가 프루너에 입력될 수 있다. 프루너는 수신기(디코더)에서 데이터를 디코딩하는데 사용될 수 있는 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 뷰를 재생성하기 위해 프루닝과 관련된 정보를 포함한다. 실시예들에 따르면, 프루닝의 아웃풋은 스파스 뷰 픽처, 레퍼런스 뷰 픽처 및/또는 스파스 뷰 픽처를 포함한다. 실시예들에 따르면, 뷰는 뷰 픽쳐로 지칭될 수 있다.

실시예들에 따른 스파스 뷰 프루너(27005) (또는 스파스 뷰 프루닝)는 픽쳐 사이의 중복성(리던던시)을 제거한다. 스파스 뷰 프루닝은 스파스 뷰(스파스 뷰 픽쳐) 사이의 중복성을 제거하는 것을 나타낸다. 실시예들에 따르면, 프루닝은 참조(레퍼런스) 뷰들 사이의 중복성을 제거하는 반면, 스파스 뷰 프 루닝은 스파스 뷰들 사이의 중복성을 제거한다. 스파스 뷰 프루닝 (sparse view pruning)으로 인해, 뷰 당 리던던시를 보다 효율적으로 제거 할 수 있어 인코딩 및/또는 전송의 성능 및 효율이 향상될 수 있다. 실시예들에 따르면, 스파스 뷰 프루닝의 출력은 프루닝된 스파 스 뷰 픽쳐이고 일부 프루닝된 스파스 뷰 픽쳐는 프루닝의 입력에 제공 될 수 있다.

패커 (27006) (또는 패킹)는 예를 들어 센터 뷰 픽쳐, 프루닝된 스파스 뷰 픽쳐(pruned sparse view picture), 레퍼런스 뷰 픽쳐(reference view picture) 및/또는 스파스 뷰 픽쳐(sparse view picture)와 같은 픽쳐를 패킹한다. 패커의 출력은 패킹된 픽쳐(packed picture)이다.

인코더 (27007) (또는 인코딩)는 예를 들어, 패킹된 픽처 및/또는 센터 뷰 제너레이션 정보, 레퍼런스 뷰 정보, 리제너레이션 정보, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보(뷰 신테시스 레코멘데이션 정보)를 포함하는 시그널링 정보를 인코딩한다. 실시예들에 따르면, 인코딩된 데이터는 비트 스트림 (들)의 포맷으로서 전송된다.

실시예들에 따르면, 전처리기(또는 인코더 프리-프로세싱부)는 회전/투영, 센터 뷰 제너레이션, 인터미디에이트 뷰 합성(중간 뷰 합성), 프루닝, 희소(스파스) 뷰 프루닝, 패킹 및/또는 인코딩을 포함하여 전술 한 바와 같은 동작을 수행한다.

실시예들에 따르면, 중심 뷰 화상(픽쳐)(또는 센터 뷰 픽처)은 다중 구형 비디오/이미지의 중심 위치에 대한 구형 비디오/이미지를 의미한다. 실시예들에 따르면, 중심 뷰 화상은 입력 데이터에 포함되거나 가상 시점 생성으로부터 생성 될 수 있다

실시예들에 따르면, 중간 뷰 픽쳐는 버츄얼(가상으로)하게 생성된 픽쳐를 의미한다. 중간 뷰 픽처는 입력 데이터 (예 : 다중 구형 비디오 / 이미지)에 포함되지 않는다. 실시예들에 따르면, 프리 제너레이션 정보 및 / 또는 뷰 합성 추천 정보(뷰 합성 레코멘데이션 정보)는 실시예들에 따른 viewing_position_picture_type[ i ] == 3, 4 에 관련된 뷰잉 포지션 그룹 정보 SEI 메시지 구문에 포함된다.

실시예들에 따르면, 소스 뷰 픽처 및/또는 중심 뷰 픽처(센터 뷰 픽처)가 프루닝에 사용된다. 실시예들에 따른 기준 뷰 정보(레퍼런스 뷰 정보) 및/또는 재생 정보(리제너레이션 정보)는 실시예들에 따른 viewing_position_picture_type[ i ] == 1 에 관련된 뷰잉 포지션 위치 정보 SEI 메시지 신택스에 포함된다

실시예들에 따르면, 뷰잉 포지션 그룹 정보 SEI 메시지는 인코더에 의해 전송되고 수신기에 의해 시그널링 정보로서 수신된다. 뷰잉 포지션 그룹 정보 SEI 메시지는 views_position_picture_type을 포함한다.

실시예들에 따르면, VIEW_position_picture_type은 i 번째 뷰잉 포지션의 픽쳐 타입을 픽쳐 생성 측면에서 기술한다. viewer_position_picture_type이 0과 같은 경우, i 번째 뷰잉 포지션은 중앙 뷰(센터 뷰)이다. view_position_picture_type이 1과 같은 경우, i 번째 뷰잉 포지션의 픽쳐는 뷰 리제너레이션 과정에서 참조 픽쳐(레퍼런스 픽쳐)로 사용된다. view_position_picture_type이 2와 같은 경우, i 번째 뷰잉 포지션의 픽쳐는 뷰 리제너레이션 프로세스로부터 생성될 것이다. views_position_picture_type이 3과 같은 경우, i 번째 뷰잉 포지션의 픽쳐는 부호화 전처리에서 프리-제너레이트된 뷰이다. views_position_picture_type이 4와 동일한 경우, i 번째 뷰잉 포지션의 픽쳐는 디코딩된 픽쳐에 존재하지 않을 수 있지만, 추가 정보와 함께 뷰 신테시스 방법이 권장된다. 이것은 뷰 합성과 관련하여 시간 소비 프로세스를 줄이는 데 사용될 수 있다. views_position_picture_type이 5와 같은 경우, i 번째 뷰잉 포지션의 픽쳐는 디코딩된 픽쳐에 존재하지 않을 수 있지만 다른 뷰잉 포지션으로부터의 다른(alternative) 픽쳐가 존재한다.

실시예들에 따르면, 희소 뷰 픽쳐(스파스 뷰 픽처)는 주변 시점(들)에 기초하여 현재 시점이 예측될 때 예측 될 수 없는 정보를 포함하는 픽쳐를 의미한다. 예를 들어, 그레이 또는 블랙 영역(들)은 현재 시점에 대한 화상과 주변 시점에 대한 화상 사이에서 정보가 중복됨을 의미한다. 실시예들에 따르면, 중복된 정보는 예측 가능한 정보를 의미한다. 따라서 희소 뷰 픽쳐(스파스 뷰 픽처)에는 예측할 수 없는 정보가 포함된다.

실시예들에 따라, 참조 시점 픽쳐(레퍼런스 뷰 픽처)는 현재 시점에 대한 픽쳐를 예측하는데 사용되는 주변 시점에 대한 픽쳐를 의미한다. 실시예들에 따르면, 가상 시점 생성에 의해 생성 된 소스 뷰 픽쳐/ 이미지 및/또는 픽쳐/이미지가 사용될 수 있다.

실시예들에 따르면, 희소 뷰 프루닝은 타겟 뷰잉 위치, 기준 스파스 뷰, 및 스파스 뷰 재생 방법 유형, 예컨대 target_view_id, component_id, component_type, pruned_sparse_view_present_flag, reference_sparse_view_present_flag_sprese_view_present, output_sparse_view_id, pruned_sparse_view_id 및 reference_sparse_view_id 등과 같은 정보를 나타내기 위한 메타데이터 또는 스파스 뷰를 위한 시그널링 정보를 생성한다.

실시예들에 따르면, 희소 뷰 프루닝(스파스 뷰 프루닝)은 실시예들에 따른 스파스 뷰 리제너레이션 정보를 생성한다.

따라서 실시예들에 따른 비디오 전송 방법은, 복수의 뷰잉 포지션들에 대한 픽처들에 포함된 소스 뷰 픽처들에 기초하여 센터 뷰 픽처(center view picture) 및/또는 센터 뷰 제너레이션 정보(center view generation information)를 생성하는 단계; 및 소스 뷰 픽처들에 기초하여 중간 뷰 픽처를 합성하는 단계, 중간 뷰 픽처를 합성하는 단계는 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)를 생성함; 를 더 포함할 수 있다. 이 때, 인터-뷰 리던던시를 제거하는 단계는 소스 뷰 픽처들, 중간 뷰 픽처 및/또는 센터 뷰 픽처 중 적어도 두 개의 픽처에 기초하여 스파스 뷰(sparse view) 픽처들을 생성할 수 있고, 인터-뷰 리던던시를 제거하는 단계는 레퍼런스 뷰(reference view) 픽처들, 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 더 생성할 수 있다.

이러한 구성으로 인해, 실시예들에 따른 비디오 전송 장치는 뷰포인트의 다른 뷰잉 포지션들을 나타내는 복수의 멀티 스피리컬 이미지들을 효율적으로 제공할 수 있다.

실시예들에 따른 프루너 및/또는 스파스 뷰 프루닝부를 이용하여 전송되어야 할 데이터의 양을 줄일 수 있다.

또한, 비디오 전송 장치의 프루너(pruner, 또는 프루닝 단계) 및/또는 스파스 뷰 프루너(sparse view pruner, 또는 스파스 뷰 프루닝)을 이용하여 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 비디오 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

실시예들에 따른 디코더 포스트-프로세싱부는 사용자(viewer)의 뷰포인트(viewpoint)에 따라, 뷰 합성부가 뷰를 합성하는데 관련된 뷰잉 포지션을 결정할 수 있다. 그 후, 디코더 포스트-프로세싱부는 각각의 뷰잉 포지션을 위한 동작을 결정할 수 있고, 및/또는 수신기의 동작 순서를 결정할 수 있다.

예를 들면, 스파스 뷰 리제너레이션 SEI 메시지가 존재하는 경우, 스파스 뷰 리제너레이션(sparse view regeneration) 동작은 각각의 뷰잉 포지션에 대하여 sparse_view_regeneration_type 정보에 따라 수행될 수 있다. 이어서, target_view_id에 대응하는 component_id and component_type에 따라 지시되는 모든 컴포넌트들에 대하여 포스트-프로세싱이 수행될 수 있다. 아래는 sparse_view_regeneration_type 정보에 따라 수행될 수 있는 스파스 뷰 리제너레이션 동작의 예시를 나타낸 것이다.

- sparse_view_regeneration_type equal이 1인 경우, 스파스 뷰 재생성 동작은 도 35에 따라 수행될 수 있다. 도 35에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)와 프루닝된 스파스 뷰 픽처(pruned sparse view, res_s1)는 각각 reference_sparse_view_id 및 pruned_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 도 35에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰 픽처 및 view_position_descriptor()에 의해 지시되는 타겟 뷰들의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티를 계산할 수 있다. 도 35에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

- sparse_view_regeneration_type equal이 2인 경우, 스파스 뷰 재생성 동작은 도 36에 따라 수행될 수 있다. 도 36에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 도 36에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰 픽처 및 view_position_descriptor()에 의해 지시되는 타겟 뷰들의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티를 계산할 수 있다. 도 36에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

- sparse_view_regeneration_type equal이 3인 경우, 스파스 뷰 재생성 동작은 도 37에 따라 수행될 수 있다. 도 37에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 실시예들에 따른 스파스 뷰 재생성 동작을 수행하기 앞서, 임시 재생성된 뷰(v1)을 생성할 수 있다. 임시 재생성된 뷰는 레퍼런스 뷰로 호칭할 수도 있다. 도 37에 따른 스파스 뷰(s2)를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

- sparse_view_regeneration_type equal이 4인 경우, 스파스 뷰 재생성 동작은 도 38에 따라 수행될 수 있다. 도 38에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 실시예들에 따른 디코더 포스트-프로세싱부가 레퍼런스 뷰를 재생성한 경우, 타겟 뷰가 뷰 합성부의 동작에 의해 재생성될 수 있다. 여기서 뷰 합성을 수행하는 경우, 레퍼런스 뷰(즉, 재생성된 v1 픽처)의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

실시예들에 따른 인코더 프리-프로세싱부에 의해 전송되는 뷰 포지션 그룹 정보(view position group information)은 실시예들에 따른 콘트롤러(2806)에 의해 파싱될 수 있다. 콘트롤러는, 어떤 뷰잉 포지션(viewing position), 어떤 뷰 재생성 동작 및/또는 뷰 합성 동작 방법이 수행되는지, 뷰 재생성 및/또는 뷰 합성이 어떤 순서로 동작하는지를 결정함으로써, 전체 뷰포트(viewport) 생성 동작을 제어할 수 있다. 예를 들어, 사용자(viewer)가 중심 위치(center position) 또는 레퍼런스 뷰 픽처에 해당하는 위치와 정확히 동일한 위치에 해당하는 픽처(a picture position that is exactly same with the reference picture position)를 시청하기를 원하는 경우, 해당하는 픽처(센터 뷰 픽처 또는 레퍼런스 뷰 픽처)만 선택하여 언패킹을 수행할 수도 있다.

그러나, 만약 중심 위치(center position)가 인코더 프리-프로세싱부에 의해 생성되지 않은 경우, 실시예들에 따른 콘트롤러는 수신한 레퍼런스 뷰들로부터 센터 뷰를 생성하도록 실시예들에 따른 센터 뷰 제너레이션부를 제어할 수 있다.

또한, 예를 들면, 해당 뷰잉 포지션이 하나의 전체 픽처(a full picture)가 아니어서, 전체 픽처를 위한 추가 동작이 필요할 수 있다. 이 경우, 실시예들에 따른 콘트롤러는 실시예들에 따른 뷰 재생성부 및/또는 센터 뷰 제너레이션부를 제어할 수 있다. 즉, 콘트롤러는 관련 메타데이터를 이용하여 실시예들에 따른 뷰 재생성부 및/또는 센터 뷰 제너레이션부를 제어할 수 있다. 여기서 메타데이터는 인코더 프리-프로세서에 의해 시그널링될 수 있으며, 실시예들에 따른 디코더 포스트-프로세싱부는 해당 메타데이터에 기초하여 센터 뷰 픽처(center view picture), 레퍼런스 뷰 픽처(reference view pictures) 및/또는 스파스 뷰 픽처(sparse view pictures)들을 생성할 수 있다.

이 과정에서, 실시예들에 따른 다른 뷰들(other views, 예를 들면 타겟 뷰들)을 생성하기 위하여 실시예들에 따른 센터 뷰 픽처 및/또는 레퍼런스 뷰 픽처를 이용할 수 있다. 따라서, 센터 뷰 제너레이션, 레퍼런스 뷰 생성하는 동작 및/또는 중간 뷰 생성하는 동작은 실시예들에 다른 뷰 리제너레이션부에 앞서 수행될 수 있다.

만약, 실시예들에 따른 수신 장치의 뷰잉 포지션이 재생성된 또는 제공된 뷰잉 포지션과 매치(match)되지 않는 경우에는, 해당 재생성된 및/또는 제공된 뷰잉 포지션에 대한 픽처들을 합성할 수 있다. 따라서, 실시예들에 따른 뷰 재생성부의 동작은 실시예들에 따른 뷰 합성부의 동작에 선행할 수 있다. 여기서, 상술한 프로세싱의 순서는 viewing_position_picture_type 및/또는 view_position_processing_order_idx에 의해 나타내어질 수 있다.

실시예들에 따른 비디오를 수신하기 위한 장치는 디코더, 언 패커, 제어기, 중심 뷰 생성기, 뷰 재생기, 스파스 뷰 재생기, 뷰 합성기 및/또는 렌더러/뷰포트 생성기를 포함한다.

디코더 (2800) (또는 디코딩부, 디코딩)는 예를 들어 비트스트림 내의 픽처 및 실시예들에 따른 시그널링 정보 (viewing position group information 를 포함)를 포함하여 수신 된 데이터를 디코딩한다.

언패커 (2802) (또는 언패킹부, 언패킹)는 비트 스트림에서 패킹 된 픽처와 같은 픽처를 언 패킹한다.

제어기 (2806) (또는 제어, 콘트롤러)는 비트 스트림에서의 시그널링 정보, 예를 들어 뷰잉 포지션 그룹 정보, 실시예들에 따른 중심 뷰 생성 정보(센터 뷰 제너레이션 정보), 실시예들에 따른 참조 뷰 정보(레퍼런스 뷰 정보), 실시예들에 따른 재생 정보(리제너레이션 정보), 실시예들에 따른 사전 생성 정보(프리-제너레이션 정보) 및 / 또는 실시예들에 따른 합성 추천 정보(뷰 합성 레코멘데이션 정보)를 제어한다. 후 처리에서의 각 동작에 시그널링 정보를 제공하기 위해 사용된다.

중앙 뷰 생성기 (2803) (또는 센터 뷰 제너레이션, 센터 뷰 제너레이터)는 센터 뷰 생성 정보에 기초하여 센터 뷰 픽쳐를 생성한다. 실시예들에 따르면, viewing_position_picture_type 이 0과 동일한 실시 예들에 따른 시그널링 정보 또는 center_view_present_flag이 0과 동일한 경우 센터 뷰 제너레이션이 처리된다. 각 뷰잉 포지션에 대한 레퍼런스 뷰잉 포지션들 및 파라미터들은 views_position_id, center_view_generation_parameter에 의해 주어진다. 다른 경우에, 계산 복잡도가 수신기에 큰 부담인 경우, alternative_viewing_position_id, alternative_view_distance, rec_center_view_generation_method_type과 같은 주어진 정보에 의해 대안적인 시청 위치가 사용될 수 있다.

뷰 재생기 (2804) (또는 뷰 재생성, 뷰 리제너레이션부)는 레퍼런스 뷰(참조 뷰) 및/또는 희소 뷰(스파스 뷰) (들)에 기초하여 리제너레이트된 뷰를 재생성한다. 실시예들에 따르면, 희소 뷰는 비트스트림으로 전송될 수 있거나 희소 뷰는 희소 뷰 리제너레이션(스파스 뷰 리제너레이션)에 의해 생성 될 수 있다.

실시예들에 따르면, viewing_position_picture_type이 1과 동일한 경우, 픽쳐는 다른 뷰잉 포지션에 대한 참조 픽쳐로서 사용될 수 있다. 이 경우, 디코더는 views_position_id에 의해 주어진 이 픽처를 사용하는 뷰잉 포지션의 정보와 함께 픽처를 버퍼에 저장할 수 있다. viewing _position_picture_type이 2와 같은 경우, 뷰 리제너레이션 이 뷰잉 위치의 칙쳐를 복원하는데 사용되어야 한다. 리제너레이션 프로세스에 필요한 참조 뷰 및 스파스 뷰는 각각 views_position_id 및 picture_id에 의해 표현된다. 실시예들에 따른 수신기는 view_regeneration_method_type에 의해 주어진 리제너레이션 처리 방법을 사용하여 인코더가 의도 한 시청 위치를 복원할 수 있다.

희소 뷰 재생기(스파스 뷰 리제너레이션, 2805)는 비트 스트림에서의 희소 뷰 픽처 및 시그널링 정보에 기초하여 희소 뷰 픽처(스파스 뷰 픽처)를 재생성한다.

뷰 합성기 (뷰 신테시스, 2807) (또는 뷰 합성)는 중심 뷰 (예를 들어, 중심 위치), 재생 뷰 픽쳐, 참조 뷰 픽쳐 (예를 들어, 주변을 뷰포인트들 및/또는 프리 제너레이션 정보 및/또는 합성 추천 정보를 포함하는 시그널링 정보에 대한)에 기초하여 목표 시청 위치에 대한 픽쳐 및 / 또는 픽쳐를 합성한다.

실시예들에 따르면, viewing_position_picture_type이 3과 같은 경우, 픽처는 소스 픽처가 아니라 미리 생성된 뷰이다. 수신기는 이 픽쳐를 사용할지 또는 리제너레이트된 픽쳐로 새로운 픽쳐를 합성할지 결정한다. 이 결정에서, 처리된 방법은 pregeneration_method_type에 의해 주어진 결정 기준 중 하나 일 수 있다. 수신기가 이 픽처를 사용하는 경우, views_position_id에 의해 제공된 참조 픽처 및 picture_id에 의해 제공된 희소 뷰는 재생 방법과 함께 사용된다.

실시예들에 따르면, viewing_position_picture_type이 4와 동일한 경우, 이 뷰잉 위치에 대해 추천된 뷰 합성 정보가 제공된다. 이들은 각각 ref_view_systhesis_method_type, view_synthesis_parameter, views_position_id, sparse_view_present_flag에 의해 주어진 합성 방법, 파라미터, 레퍼런스 뷰잉 포지션 인디케이터 및 스파스 뷰 존재 플래그이다.

실시예들에 따르면, viewing_position_picture_type이 5와 같은 경우, 시청 위치는 alternative_viewing_position_id로 표시되는 소스 뷰, 재생 뷰 또는 합성 뷰로부터 다른 뷰로 대체될 수 있다.

렌더러/뷰포트 생성기 (2808) (또는 렌더링/뷰포트 생성)는 뷰 합성에 의해 생성된 뷰를 렌더링하고, 사용자, 디스플레이어 또는 수신기로부터 획득된 사용자 뷰포트에 대한 뷰포트 정보를 생성한다. 실시예들에 따른 뷰포트 정보는 제어기에 제공된다.

실시예들에 따르면, 포스트 프로세서는 디코딩(들), 언 패킹, 중심 뷰 생성, 뷰 재생, 희소 뷰 재생, 제어, 뷰 합성 및/또는 렌더링/뷰포트 생성을 포함하여 전술한 바와 같은 동작을 수행한다.

실시예들에 따른 뷰 리제너레이션부 및/또는 스파스 뷰 리제너레이션부를 이용하여, 실시예들에 따른 수신기가 수신할 데이터 양을 줄이면서 사용자들에게 정확하고 실제와 같은 뷰들을 제공할 수 있다.

또한, 비디오 수신 장치의 뷰 리제너레이션부(view regeneration, 또는 뷰 리제너레이터) 및/또는 스파스 뷰 리제너레이션부(sparse view regenearation, 또는 스파스 뷰 리제너레이터)을 이용하여 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 비디오 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

- 센터 뷰 합성부(Central View Synthesis module, 29003)

실시예들에 따른 센터 뷰 합성부는 대부분의 시각 정보 전달을 담당하는 일반 및 전체 ERP (텍스처 + 뎁스) 뷰를 생성한다. 실시예들에 따른 센터 뷰 합성부의 파라미터(매개변수), Resolution of the related stream(관련 스트림에 대한 해상도), Exact position of the central view(중심 뷰의 정확한 위치)에 관한 정보를 포함한다.

- 소스 뷰 프루닝부(Source View Pruning module, 29001)

실시예들에 따른 소스 뷰 프루닝부는 Central View Synthesis 모듈의 뎁스 버퍼 출력을 사용하고 이미 투영 된 픽셀을 버릴 수 있다. 이 모듈의 파라미터(매개변수)는 Resolution of the related stream(관련 스트림에 대한 해상도) 및 텍스처에 대한 QP 및 뎁스에 대한 QP(QP for the texture and QP for the depth)에 대한 정보를 포함한다.

- 파티셔닝 앤 패킹부(Partitioning & packing module, 29002)

실시예들에 따른 파티셔닝 앤 패킹부가 동작하는 경우, 이 모듈은 스파스 소스 뷰(sparse source view)의 전체를 탐색하고 다음을 구현한다.

partitions each sparse source views (각각의 스파스 소스 뷰들을 분할)

discards empty partitions (빈 파티션을 제거)

packs them in a patch atlas on one or more streams (하나 또는 그 이상의 스트림들에 패치 아틀라스에 패킹)

generates additional informations accordingly (추가 정보를 생성함)

- 뷰 합성부(View synthesis module, 29006 등)

실시예들에 따른 뷰 합성부는 RVS와 마찬가지로 최종 뷰포트(the final viewport)를 생성한다. 실시예들에 따른 뷰 합성부는 이전에 생성된 추가 정보로 보완된 이종 텍스처 + 깊이 비디오 세트를 입력으로 수신한다. 그런 다음 ERP 또는 퍼스펙티브(Perspective) 모드에서 뷰를 합성한다.

실시예들에 따르면, 중앙 뷰 합성 모듈, 소스 뷰 프루닝 모듈, 분할 및 패킹 모듈 및/ 또는 뷰 합성 모듈은 송신기 측의 하드웨어, 소프트웨어 및/또는 프로세서에 대응할 수 있다.

실시예들에 따르면, 중앙 뷰 신시사이저(29003)는 소스 뷰 픽쳐로부터 획득되거나 소스 뷰 픽쳐로부터 가상으로 생성된 소스 뷰 픽쳐로부터 중심 뷰 화상을 생성한다.

실시예들에 따르면, 소스 뷰 프루너(29001)는 소스 뷰 픽쳐들 및/또는 소스 뷰 픽쳐들과 중심 뷰 픽쳐 사이의 리던던시를 프루닝(예를 들어, 제거)한다. 소스 뷰 프루닝의 출력은 여러 희소 소스 뷰 (텍스처 및/또는 깊이 포함)이다 (예 : 스파스 소스 뷰 # 0,…스파스 소스 뷰 #i).

실시예들에 따르면, 스파스 뷰는 스파스 뷰 프루닝(29001)에 의해 추가로 프루닝된다.

실시예들에 따르면, Practitioner & packer(분할 및 패킹, 29002)는 희소 소스 뷰 및 / 또는 스파 스 뷰를 텍스쳐 및/또는 깊이를 포함하는 패킹된 비디오(들)에 패킹하고, 실시예들에 따른 시그널링 정보와 관련된 추가적인 패킹 정보를 생성한다.

실시예들에 따르면, 다수의 비트스트림, 예를 들어 N 개의 스트림은 HEVC 코딩 방식(29004)에 의해 인코딩된다.

실시예들에 따르면, N 개의 스트림 및/또는 시그널링 정보가 전송된다.

실시예들에 따르면, N 개의 스트림 (텍스처 및/또는 깊이 포함) 및/또는 시그널링 정보는 수신기 측에서 수신된다.

실시예들에 따르면, ERP 신시사이저(29006)는 시그널링 정보 및 N 개의 스트림에 기초하여 뷰를 합성한다. 목표 시청 위치에 대한 뷰가 재생성 (예측) 될 수 있다.

도 30은 실시예들에 따른 다른 프루닝 인풋/아웃풋이 사용되는 실시예들에 따른 프루닝부를 나아낸 것이다. 예를 들어, 첫째, 실시예들에 따른 제 1 소스 뷰(v1)는 하나의 레퍼런스 뷰 즉, 센터 뷰 픽처(c0)에 기초하여 생성될 수 있고, 제 1 스파스 뷰(s1)는 상술한 제 1 소스 뷰(v1)의 리던던시를 제거하여 생성될 수 있다. 즉, 실시예들에 따른 인코더 프리-프로세싱부는 첫 번째 예시에 따라 제 1 스파스 뷰 픽처(s1)을 생성할 수 있다.

또 다른 예시로, 둘째, 제 2 소스 뷰 (v2)는 복수 개의 레퍼런스 뷰를 이용하여, 즉, 센터 뷰 픽처(c0), 레퍼런스 뷰 픽처(v1)를 이용하여 생성될 수 있다. 또한, 제 2 스파스 뷰 픽처는 상술한 제 2 소스 뷰 픽처(v2)의 리던던시를 제거하여 생성될 수 있다. 즉, 실시예들에 따른 인코더 프리-프로세싱부는 두 번째 예시에 따라 제 2 스파스 뷰 픽처(s2)을 생성할 수 있다.

본 도면에서, 굵은 선으로 표시된 픽처는 패킹부 및/또는 인코딩부에 의해 패킹 및/또는 인코딩되어 실시예들에 따른 전송 장치에 의해 전송되는 픽처를 의미할 수 있다. 실시예들에 따르면, 패커 및/또는 인코더는 스파스 뷰 프루닝된 픽처들을 효율적으로 패킹 및 인코딩할 수 있다.

다시 말해, 도 30를 참조하면, 수신기로 전달되는 데이터 크기의 양을 감소시키기 위해, 뷰들 사이의 공간적 관계에 의해 야기되는 여분의 시각적 정보를 제거하는 것을 목적으로 하는 프루닝 모듈이 인코더 전처리 단계에서 사용된다. 이것이 사용될 때, 원래의 뷰를 복원하는 것을 목표로 하는 역 처리는 뷰 리제너레이션이라고 한다. 이러한 단계들에 대해, 참조 및 소스 뷰들의 정보 및 뷰 재생 프로세스에서 사용될 방법은 텍스처 깊이 리제너레이션 정보 SEI 메시지 또는 뷰 리제너레이션 정보 SEI 메시지에 의해 제공되어야 하며, 다른 문서들에서 세부 사항들이 다루어진다.

프루닝 모듈은 실시예들에 따른 도 27의 프루닝에 대응할 수 있다. 실시예들에 따르면, 프루닝 모듈은 프루너라고 지칭될 수 있다.

실시예들에 따르면, 프루닝 (30000) (또는 프루너)은 중심 뷰 (c0) 및 소스 뷰 (v1)에 기초하여 스파스 뷰, 예를 들어 s1 또는 제 1 스파스 뷰를 생성한다. 실시예들에 따르면, 스파스 뷰 (s1)는 중심 뷰 (c0)로부터 소스 뷰 (v1) 및/또는 소스 뷰 (v1)로부터 중심 뷰 (c0)를 감산함으로써 생성된다. 희소 뷰 (s1)는 예측 불가능한 데이터를 포함하는 픽쳐이며, 희소 뷰 (s1)의 회색 또는 검은 색 표시 영역은 중앙 뷰 (c0)와 소스 뷰 (s1) 사이에 중복된 데이터 또는 리던던시이다. 희소 뷰 (s1)를 생성함으로써, 데이터를 인코딩 또는 전송하는 성능 및 효율이 증가될 수 있다.

프루닝 (30001) (또는 프루너)은 중심 뷰 (c0), 참조 뷰 (r1) 및/또는 소스 뷰 (v2)를 기반으로 스파스 뷰 (s2)를 생성한다. 예를 들어, 중앙 뷰 (c0)는 참조 뷰 (r1)에 추가되고 추가된 픽쳐는 소스 뷰 (v2)와 함께 차감된다.

패킹/인코딩 (30002) (또는 패커 / 인코더)은 스파스 뷰 (s1) 및 / 또는 스파스 뷰 (s2)를 패킹/인코딩한다.

실시예들에 따르면, 픽처를 포함하는 데이터를 인코딩/전송하기 위해 프루닝에 기초하여 s1 및 s2를 포함하는 다수의 스파스 뷰가 생성될 수 있다.

예를 들어, 복수의 뷰잉 포지션들 중 하나인 스파스 뷰 (s2) (s2에 대한 뷰 포인트)는 중심 뷰 (c0), r1에 대한 뷰포인트에 대한 참조 뷰 (r1) 및/또는 스파스 뷰(v2)를 프루닝함으로써 생성될 수 있다. 실시예들에 따르면, 프루닝은 중심 뷰 (c0) 및 참조 뷰 (r1)를 더하고 v2의 시점에 대한 소스 뷰 (v2)를 뺀다.

실시예들에 따르면, 희소 뷰들은 패킹 및/또는 인코딩될 수 있다. 예를 들어, 스파스 뷰 (s1) 및 스파스 뷰 (s2) (또는 더 많은 스파스 뷰를 포함)는 패킹 및/또는 인코딩된다.

실시 예에 따르면, 용어 c0은 중심 시점/시점 위치 픽쳐이고, 용어 v1은 제 1 시점/ 시점 위치 소스 뷰 픽쳐이며, 용어 s1은 제 1 시점/시점 위치 희소 뷰 픽쳐이며, 용어 r1은 제 1 시점/시점 위치 참조 시점 픽쳐이고, 용어 v2는 제 2 시점/시점 위치 소스 시점 픽쳐이며, s2 항은 제 2 시점/시점 위치 희소 시점 픽쳐 및/또는 이와 유사한 방식으로 해석 될 수 있다.

여기서, 실시예들에 따른 수신 장치가 뷰 리제너레이션부에 의해 재생성할 뷰는 서로 다른 뷰잉 포지션(또는 시점/시점 위치)에 대한 뷰(또는 픽처)일 수 있다. 각각의 서로 다른 뷰잉 포지션은 제 1 뷰잉 포지션, 제 2 뷰잉 포지션 등으로 호칭할 수 있다. 각각의 뷰잉 포지션은 하나 또는 그 이상의 소스 뷰(소스 뷰 픽처, source view picture), 하나 또는 그 이상의 레퍼런스 뷰(레퍼런스 뷰, reference view picture), 하나 또는 그 이상의 스파스 뷰(스파스 뷰 픽처, sparse view picture) 등을 포함할 수 있다. 각각의 뷰잉 포지션 내 소스 뷰 픽처, 레퍼런스 뷰 픽처, 스파스 뷰 픽처가 복수 개로 존재하는 경우, 제 1 뷰잉 포지션에 대한 제 1 소스 뷰 픽처, 제 1 뷰잉 포지션에 대한 제 2 소스 뷰 픽처 등과 같이 호칭될 수 있다. 또한, 제 1 소스 뷰 픽처 및 제 2 소스 뷰 픽처라고 호칭되는 경우, 각각의 소스 뷰 픽처가 서로 다른 뷰잉 포지션을 의미할 수도 있다.

실시예들에 따른 프루너를 이용하여 전송되어야 할 데이터의 양을 줄일 수 있다.

또한, 비디오 전송 장치의 프루너(pruner, 또는 프루닝 단계)를 이용하여 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 비디오 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

도 31은 실시예들에 따른 뷰 리제너레이션이 포함된 디코더 포스트-프로세싱 스킴을 나타낸다. 구체적으로 도 31은 제 1 재생성된 뷰 픽처(또는 재생성된 v1 픽처) 및/또는 제 2 재생성된 뷰 픽처(또는 재생성된 v2 픽처)를 재생성하기 위해 다른 인풋들이 사용되는 디코더 포스트-프로세싱 스킴을 나타낸다. 실시예들에 따른 뷰 리제너레이션 동작에서, 타겟 뷰는 레퍼런스 뷰(들)에 기초하여 예측(predicted)되고, 예측하기 어려운(또는 예측하지 못한) 영역은 실시예들에 따른 스파스 뷰들에 의해 채워질 수 있다. 실시예들에 따른 뷰 리제너레이션 동작에서 사용되는 픽처들에 대한 정보가 주어지면, 제 1 재생성된 뷰 픽처는 센터 뷰 픽처(c0) 및 제 1 스파스 뷰 픽처(s1)에 의해 생성될 수 있다. 또 다른 실시예는, 제 2 재생성된 뷰 픽처는 두 개의 레퍼런스 픽처들(즉, 센터 뷰 픽처(c0) 및 하나의 레퍼런스 뷰 픽처(r1)) 및 스파스 뷰 픽처에 의해 생성될 수 있다.

실시예들에 따르면, 디코더는 수신된 픽처들로부터 뷰(들)를 재생성(또는 예측)하기 위해 뷰 재생성을 수행한다.

뷰 재생 (31000) (또는 뷰 재생기)은 중심 뷰 (c0) 및 희소 뷰 (s1)에 기초하여 재생 뷰 (v1)를 생성 (재생/예측)한다. 실시예들에 따르면, 중심 뷰는 실시예들에 따라 인코더 또는 송신기로부터 전송 될 수 있다. 실시 예에 따르면, 중심 뷰는 도 33에 도시 된 실시예들에 따른 중앙 뷰 생성에 의해 생성 될 수 있다. 실시 예에 따르면, 희소 뷰 (v1)는 패킹 된 화상을 통해 전송된다. 따라서, 뷰 재생성에서는 예측할 수 없는 데이터를 포함하는 중심 뷰 (c0) 및 희소 뷰 (s1)를 사용하여 뷰 (v1)를 생성 할 수 있다.

뷰 재생 (31001) (또는 뷰 재생기)은 중심 뷰 (c0), 참조 뷰 (r1) 및 희소 뷰 (s2)에 기초하여 재생 뷰 (v2)를 생성 (재생/예측)한다.

따라서, 다수의 시청 위치 또는 시점에 대하여, 뷰 (v1, v2,…vN)는 중심 뷰 (들), 희소 뷰 (들) 및/또는 참조 뷰 (들)에 기초하여 (재) 생성 될 수 있다.

실시 예들에 따르면, 중심 뷰 (c0)는 수신된 참조 뷰 화상들로부터 중심 뷰 생성에 의해 생성 될 수 있거나 실시 예들에 따라 중앙 뷰 (c0)는 수신 된 참조 뷰 화상들에 포함된다. 실시 예들에 따르면, 하나 이상의 소스 뷰 (v1, v2,…vN) 또는 하나 이상의 참조 뷰 (r1, r2 ,,,, rN)가 수신 된 픽처에 포함된다.

실시예들에 따른 뷰 리제너레이션부를 이용하여, 실시예들에 따른 수신기가 수신할 데이터 양을 줄이면서 사용자들에게 정확하고 실제와 같은 뷰들을 제공할 수 있다.

또한, 비디오 수신 장치의 뷰 리제너레이션부(view regeneration, 또는 뷰 리제너레이터)를 이용하여 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 비디오 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

도 32 은 실시예들에 따른 프루닝부 및 스파스 뷰 셀렉션부를 이용한 실시예들에 따른 인코더 프리-프로세싱 스킴을 나타낸다.

레퍼런스 뷰의 교체와 관련하여: (Regarding Replacement of reference view:)

도 32는 실시예들에 따른 프루닝부 및 스파스 뷰 셀렉션부를 포함하는 실시예들에 따른 인코더 프리-프로세싱부의 동작을 나타낸다. 실시예들에 따른 스파스 뷰 셀렉션 동작에서, 데이터 효율이 더 높은 스파스 뷰를 선택할 수 있다. 이는, 스파스 뷰 픽처 중 적은 양의 픽셀을 가지는 스파스 뷰인지 등을 비교하여 결정될 수 있다. 도 32에서, 소스 뷰 픽처 (v1) 이 예에서 소스 뷰 v1은 중앙 뷰보다 소스 뷰에 더 가깝게 보이기 때문에 스파 스 뷰 s2-2는 s2-1보다 데이터 효율성이 높을 수 있다.

실시예들에 따르면, 패커 및/또는 인코더는 프루닝을 수행하고 스파스 뷰 선택을 추가로 수행한다.

프루닝 (32000) (또는 프루너)는 중앙 뷰 (c0)와 소스 뷰 (v1)를 기반으로 스파스 뷰 (s1)를 제거한다.

프루닝 (32001) (또는 프루너)은 중심 뷰 (c0) 및 소스 뷰 (v2)를 기준으로 스파스 뷰 (s2-1)를 프루닝한다. 예를 들어 소스 뷰 (v2)는 중앙 뷰 (c0)에서 차감된다.

프루닝 (32002) (또는 프루너)은 소스 뷰 (v1) 및 소스 뷰 (v2)를 기반으로 스파스 뷰 (s2-2)를 프루닝한다 (예 : 소스 뷰 (v2)는 소스 뷰 (v1)에서 빼기).

스파스 뷰 선택 (32003) (또는 스파 스 뷰 선택기)은 어느 스파스 뷰가 더 효율적인지를 고려하여 패킹되거나 인코딩될 스파스 뷰를 선택한다. 예를 들어, 희소 뷰 (s2-1)의 유효 픽셀 수가 적으면 희소 뷰 (s2-1)가 선택되고 희소 뷰 (s2-2)의 유효 픽셀 수가 적으면 희소 뷰 (s2-1) 가 선택된다.

패킹 (32004) (또는 패커)은 스파스 뷰 (s1) 또는 스파스 뷰 (s1) 및 선택된 스파스 뷰를 패킹한다.

실시예들에 따른 인터-뷰 리던던시 제거하는 단계는, 제 1 뷰잉 포지션과 관련된 제 1 소스 뷰 픽처를 센터 뷰 픽처에 기초하여 제 1 프루닝하는 단계, 제 1 프루닝하는 단계는 제 1 스파스 뷰 픽처를 생성함; 제 1 소스 뷰 픽처를 제 1 뷰잉 포지션과 다른 제 2 뷰잉 포지션과 관련된 제 2 소스 뷰 픽처에 기초하여 제 2 프루닝하는 단계, 제 2 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함; 및 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 하나의 픽처를 선택하는 단계; 를 포함할 수 있다. 또한, 인코딩하는 단계는 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 선택된 하나의 픽처를 더 인코딩할 수 있다.

실시예들에 따른 전송 장치는, 하나의 뷰잉 포지션에 대하여 스파스 뷰 픽처를 선택함으로써 전송 장치 및 수신 장치의 송수신 환경에 대응하여 데이터의 양과 연산량을 조절하는 적응적 인터-뷰 리던던시 제거 동작을 수행할 수 있다. 따라서, 실시예들에 따른 전송 장치는 전송 장치의 송신 환경 및 수신 장치의 수신 환경을 고려하여 스파스 뷰를 선택함으로써 송수신 환경에 신속하게 대응할 수 있다.

또한, 실시예들에 따른 전송 장치는, 하나의 뷰잉 포지션에 대한 다양한 스파스 뷰 픽처의 오류의 양을 판단하여 오류가 적은 픽처를 선택함으로써, 수신 장치를 사용하는 사용자들(viewer)에게 정확하고 실제와 같은 가상 현실 환경을 제공할 수 있다.

도 33은 실시예들에 따른 디코더 포스트-프로세서의 디코더 포스트-프로세싱 스킴의 실시예를 나타낸다. 실시예들에 따른 디코더 포스트-프로세서는 제 1 뷰 재생성부(33000)에 의해 재생성된 제 1 재생성된 뷰(v1)를 제 2 재생성된 뷰(v2)를 생성하기 위한 레퍼런스 뷰로 대체한 것을 나타낸다. 이러한 구성으로 인해, 실시예들에 따른 재생성된 뷰(즉, 제 1 재생성된 뷰(v1) 및 제 2 재생성된 뷰(v2))를 전달하는데 필요한 데이터 사이즈를 줄일 수 있다.

본 도면에서 레퍼런스 뷰의 대체(Replacement of reference view)가 설명될 수 있다.

실시예들에 따르면, 디코더 (또는 수신기)는 리제너레이트된 뷰 (v1, v2 등)를 생성하기 위해 뷰 리제너레이션을 수행한다.

뷰 재생 (33000) (또는 뷰 재생기)은 중심 뷰 및 희소 뷰 (s1)에 기초하여 재생 뷰 (v1)를 재생성(생성)한다. 예를 들어, 재생 뷰 (v1)는 중심 뷰 및 희소 뷰 (s1)에 기초하여 예측 될 수 있다.

뷰 재생성 (33001) (또는 뷰 재생성)은 희소 뷰 (s2) 및 적어도 하나의 재생 뷰 (r1) 또는 중심 뷰에 기초하여 재생 뷰 (v2)를 재생성한다.

상술한 실시예들에 따른 구성으로 인해, 실시예들에 따른 수신 장치는 재생성된 뷰(regenerated view)들을 정확하고 효율적으로 생성할 수 있다. 또한, 실시예들에 따른 수신 장치는 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 생성하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처를 이용함으로써 적은 양의 데이터로 효율적으로 뷰들을 재생성할 수 있다.

또한, 실시예들에 따른 전송 장치는 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 제공하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처만을 전송함으로써 데이터 송신의 효율성을 높일 수 있고, 연산량을 감소시킬 수 있다. (Due to using a regenerated view for a first viewpoint(or a first viewing position) when regenerating a regenerated view for a second viewpoint(or a second viewing position), a decoder in accordance with embodiments can regenerate data more precisely and efficiently and replace reference views which can provide effects of decreasing burden on the decoder. By using this approach, the data size that is occupied to deliver reference view v1 could be reduced.)

구체적으로 도 34는 실시예들에 따른 프루닝부 및/또는 스파스 뷰 프루닝부를 포함하는 인코더 프리-프로세싱부의 인코더 프리-프로세싱 스킴(encoder pre-processing scheme)을 나타낸다.

스파스 뷰 리제너레이션(Sparse view regeneration):

도 34에서는 실시예들에 따른 프루닝부와 명세서에서 추가적으로 설명하는 스파스 뷰 프루닝부를 나타낸다. 실시예들에 따른 스파스 뷰 프루닝부는, 실시예들에 따른 스파스 뷰(sparse view)들과 레퍼런스 스파스 뷰(reference sparse view) (들)과 비교하고, 스파스 뷰(sparse view)들과 레퍼런스 스파스 뷰(reference sparse view) (들) 간의 리던던시(redundancy)를 제거한다. (In Figure 33, an example of encoder pre-processing scheme with pruning module is described with the additional step called sparse view pruning. In this step, the sparse view of one view is compared with the reference sparse views and the redundancy between the sparse views are removed.

따라서, 예를 들면, 제 1 스파스 뷰 픽처(s1)와 제 2 스파스 뷰 픽처(s2)를 전송하는 것은, 레퍼런스 스파스 뷰 픽처(reference sparse view picture)에 해당하는 제 1 스파스 뷰 픽처(s1)와 제 1 스파스 뷰 픽처(s1) 및 제 2 스파스 뷰 픽처(s2) 간의 리던던시를 나타내는 프루닝된 스파스 뷰 픽처(res_s2)를 전송하는 것으로 대체될 수 있다. 프루닝된 스파스 뷰 픽처(res_s2, pruned sparse view picture)는 제 1 스파스 뷰 픽처(즉, 레퍼런스 스파스 뷰 픽처)를 제 2 스파스 뷰 픽처(s2)를 이용하여 다시 프루닝한 픽처를 의미할 수 있다. 반대로, 프루닝된 스파스 뷰 픽처(res_s2, pruned sparse view picture)는 제 2 스파스 뷰 픽처(즉, 레퍼런스 스파스 뷰 픽처)를 제 1 스파스 뷰 픽처(s1)를 이용하여 다시 프루닝한 픽처를 의미할 수도 있다. 즉, 제 1 스파스 뷰 픽처와 제 2 스파스 뷰 픽처가 상관관계(correlated) 또는 연관성을 지닌다면, 제 1 스파스 뷰 픽처에 의해 제 2 스파스 뷰 픽처를, 프루닝된 스파스 뷰 픽처를 이용하여 예측할 수 있다.

따라서, 제 2 스파스 뷰 픽처(s2)에 의존하는 잔여 데이터(remaining data)나 레지듀얼(residual)은 레퍼런스 스파스 뷰 픽처(s1)과 프루닝된 스파스 뷰 픽처(res_s2)에 의해 전달될 수 있다.

만약, 제 1 스파스 뷰 픽처와 제 2 스파스 뷰 픽처가 높은 상관관계(highly correlated)를 지니거나 연관성이 높다면, 실시예들에 따른 프루닝된 스파스 뷰 픽처는 매우 적은 양의 데이터를 가질 수 있다. 이러한 매우 적은 양의 데이터는 노이즈(noise)이거나 필요 없는 데이터(less useful data)일 수 있다. 따라서, 실시예들에 따른 전송 장치는 이러한 적은 양의 데이터를 갖는 프루닝된 스파스 뷰 픽처는 전송하지 않을 수 있다. 이 때, 프루닝된 스파스 뷰 픽처를 전송할지 말지 여부는 레지듀얼 디텍션부(residual detection, 34003)에 의해 결정될 수 있다. 즉, 레지듀얼 디텍션부는 프루닝된 스파스 뷰 픽처의 크기에 기초하여 프루닝된 스파스 뷰 픽처를 전송할지 여부를 결정할 수 있다.

실시예들에 따르면, 인코더는 프루닝, 희소 뷰 프루닝, 잔차 검출 및/또는 (패킹) 인코딩을 수행한다.

프루닝 (34000) (또는 프루너)은 중심 뷰 (c0) 및 소스 뷰 (v1)에 기초하여 희소 뷰 (s1)를 프룬 (prune) (생성)한다. 예를 들어 스파스 뷰 (s1)는 중앙 뷰 (c0)에서 소스 뷰 (v1)를 빼서 생성된다.

프루닝 (34001) (또는 프루너)는 중앙 뷰 (c0)와 소스 뷰 (v2)를 기반으로 스파스 뷰 (s2)를 제거한다. 예를 들어 스파스 뷰 (s2)는 중앙 뷰 (c0)에서 소스 뷰 (v2)를 빼서 생성된다.

실시예들에 따르면, 스파스 뷰 프루닝 (34002) (또는 스파스 뷰 프루너)은 프루닝에 의해 생성 된 스파스 뷰 (s1) 인 참조 스파스 뷰 (s1) 및 스파스 뷰 (s1)에 기초한 프루닝된 스파스 뷰 (res_s2) (s2)는 프루닝으로 생성된 스파스 뷰 (s2)이다. 예를 들어, 프룬 된 스파스 뷰 (res_s2)는 참조 스파스 뷰 (s1)에서 스파스 뷰 (s2)를 빼서 생성됩니다.

레지듀얼 디텍션 또는 잔차 검출 (34003) (또는 잔차 검출기, 레지듀얼 디텍터, 레지듀얼 검출부)은 잘라낸 스파스 뷰 (res_s2)가 패킹/인코딩되는지 여부를 결정하기 위해 프룬 스파스 뷰 (res_s2)에서 잔차 정보를 검출한다.

패킹/인코딩 (34003) (또는 패킷/인코더)은 프루닝 된 스파스 뷰 (res_s2)가 인코딩에 유용한 데이터를 가질 때 스파스 뷰 (s1) 또는 스파스 뷰 및 프루닝 된 스파스 뷰 (res_s2)를 패킹/인코딩한다.

또한 실시예들에 따른 비디오 전송 방법은, 스파스 뷰 픽처들 내 포함된 제 2 뷰잉 포지션과 관련된 스파스 뷰 픽처에 기초하여, 스파스 뷰 픽처들 내 포함된 제 1 뷰잉 포지션과 관련된 레퍼런스 스파스 뷰 픽처(reference sparse view picture)를 프루닝(pruning)하는 단계, 및 프루닝된 스파스 뷰 픽처로부터 레지듀얼(residual)를 검출하는 단계를 포함할 수 있다. 여기서 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션이고, 레퍼런스 스파스 뷰 픽처를 프루닝하는 단계는 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 생성할 수 있다. 또한, 프루닝된 스파스 뷰 픽처는 레지듀얼의 존재에 대응하여 패킹될 수 있다.

이러한 실시예들에 따른 스파스 뷰 프루닝부 및 레지듀얼 디텍션부는, 불필요하거나 중복되는 정보들을 더 제거하여 실시예들에 따른 전송 장치의 데이터 송신 효율을 높일 수 있다.

또한 실시예들에 따른 수신 장치는 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

스파스 뷰 리제너레이션:

실시예들에 따르면, sparse_view_regeneration_type equal이 1인 경우, 스파스 뷰 재생성 동작은 도 35에 따라 수행될 수 있다. 도 35에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)와 프루닝된 스파스 뷰 픽처(pruned sparse view, res_s1)는 각각 reference_sparse_view_id 및 pruned_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 도 35에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰 픽처 및 view_position_descriptor()에 의해 지시되는 타겟 뷰들의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티를 계산할 수 있다. 도 35에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다.

실시예들에 따르면, 디코더는 스파스 뷰 재생 및/또는 뷰 재생(리제너레이션)을 수행한다.

스파스 뷰 재생 (35000) (또는 스파스 뷰 재생기)은 실시 예에 따라 참조 스파스 뷰 (s1) 및 프루닝 된 스파스 뷰 (res_s1)에 기초하여 재생 스파스 뷰 (s2)를 생성 (예측)한다. 재생 스파 스 뷰 (s2)에 비추어 (제 2 시점/시점 위치에 대한), 기준 스파스 뷰 (s1) (제 1 시점/시점 위치에 대한)는 참조 뷰일 수 있다. 예를 들어, 실시예들에 따른 스파스 뷰 재생기는 스파스 뷰 재생 유형 정보에 응답하여 패킹된 픽처들에서 수신된 스파스 뷰들로부터 스파스 뷰를 재생성한다.

뷰 재생 (35001) (또는 뷰 재생기)은 중심 뷰 (c0) 및 재생 스파 스 뷰 (s2)에 기초하여 재생 뷰 (v2)를 생성한다. 실시 예에 따르면, 중심 뷰는 참조 뷰를 사용하여 디코더에서 전송되거나 생성된다. 재생 뷰 (v2)는 중심 뷰 및/또는 재생 스파 스 뷰를 사용하여 (재) 생성될 수 있다.

또한 실시예들에 따른 비디오 수신 방법은, 언패킹된 픽처들 내에 포함된 레퍼런스 뷰 픽처(reference view picture)들 및 센터 뷰 제너레이션 정보에 기초하여 센터 뷰 픽처(center view picture)를 생성하는 단계를 포함할 수 있고, 뷰 재생성하는 단계는 레퍼런스 뷰 픽처들, 언패킹된 픽처들 내의 스파스 뷰 픽처(sparse view picture)들, 센터 뷰 픽처, 레퍼런스 뷰 정보 및 리제너레이션 정보에 기초하여 재생성된 뷰(regenerated view)를 생성할 수 있다. 또한, 뷰 합성하는 단계는 재생성된 뷰, 센터 뷰 픽처, 레퍼런스 뷰 픽처들, 프리-제너레이션 정보 및 뷰 합성 레코멘데이션 정보에 기초하여 합성된 뷰를 생성할 수 있다.

또한 실시예들에 따른 뷰 재생성하는 단계는, 제 1 모드로서, 제 1 스파스 뷰 픽처로부터 제 2 스파스 뷰 픽처를 재생성하는 단계, 재생성된 제 2 스파스 뷰 픽처 및 센터 뷰 픽처에 기초하여 제 재생성된 뷰를 생성하는 단계를 포함할 수 있다. 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 제 2 스파스 뷰 픽처를 재생성하는 단계는 프루닝된 스파스 뷰 픽처에 기초하여 제 2 스파스 뷰 픽처를 생성할 수 있다. 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다를 수 있다.

sparse_view_regeneration_type equal이 2인 경우, 스파스 뷰 재생성 동작은 도 36에 따라 수행될 수 있다. 도 36에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 도 36에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰 픽처 및 view_position_descriptor()에 의해 지시되는 타겟 뷰들의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티를 계산할 수 있다. 도 36에 따른 재생성된 뷰를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

도 36에서는 스파스 뷰 리제너레이션을 이용한 디코더 포스트-프로세싱 스킴의 다른 실시예를 나타낸 것이다. 도 36은 sparse_view_regeneration_type equal이 2인 경우, 스파스 뷰 리제너레이션 동작을 나타낸다.

도 36에서, 실시예들에 따른 뷰 리제너레이션부는 프루닝된 스파스 뷰 픽처를 수신하지 않을 수 있다. 따라서, 실시예들에 따른 스파스 뷰 리제너레이션부(36000, 또는 디코더 포스트-프로세싱부)는 레퍼런스 스파스 뷰(reference sparse view, s1)를 이용하여(또는 s1만을 이용하여) 스파스 뷰(sparse view, s2)를 예측(predicted or estimated)할 수 있다. 스파스 뷰(s2)가 재생성된 경우(또는 예측된 경우, estimated), 실시예들에 따른 뷰 재생성부(view regeneration, 36001)는 센터 뷰 픽처(c0)를 이용하여 재생성된 뷰(또는 타겟 뷰, v2)가 재생성될 수 있다. 이 때, 다른 레퍼런스 뷰 픽처가 같이 사용될 수도 있다. 따라서, 재생성된 뷰(v2)를 생성하는 경우, 실시예들에 따른 스파스 뷰 제너레이션부가 뷰 재생성부에 앞서 수행될 수 있다.

실시예들에 따르면, 디코더는 스파스 뷰 재생 및/또는 뷰 재생을 수행한다.

스파스 뷰 재생 (36000) (또는 스파스 뷰 재생기)은 참조 스파스 뷰 (s1)에 기초하여 재생 스파스 뷰 (s2)를 생성한다. 실시예들에 따르면, 참조 스파스 뷰 (예를 들어, s1, s3 등)는 스파스 뷰 재생에서 재생 스파스 뷰 (s2)를 생성하는데 사용될 수 있다. 실시 예들에 따르면, 단일 참조 스파스 뷰를 사용하는 것이 가장 좋은 경우 일 수 있다. 실시 예들에 따르면, 스파스 뷰들과 관련된 시그널링 정보는 스파스 뷰 재생에 사용될 수 있다.

뷰 재생 (36001) (또는 뷰 재생기)은 실시예들에 따라 중심 뷰 (c0) 및 재생 스파스 뷰 (s2)에 기초하여 재생 뷰 (v2)를 생성한다.

sparse_view_regeneration_type equal이 3인 경우, 스파스 뷰 재생성 동작은 도 37에 따라 수행될 수 있다. 이 경우, 프루닝된 스파스 뷰 픽처가 디코딩된 및/또는 언패킹된 픽처들에 포함되지 않을 수 있다. 따라서 실시예들에 따른 디코더 포스트-프로세싱부는 레퍼런스 스파스 뷰 픽처(s1)로부터 (또는 레퍼런스 스파스 뷰 픽처만으로부터) 스파스 뷰 픽처(s2)를 예측(predicted or estimated)할 수 있다. 여기서, sparse_view_regeneration_type equal가 2인 경우와 다른 점은, 실시예들에 따른 스파스 뷰 리제너레이션부(37001)는 임시 재생성된 뷰(v1)을 이용하여 스파스 뷰 픽처(s2)를 예측한다는 것이다.

여기서, 재생성된 v2 픽처를 재생성하기 위하여 임시 재생성된 v1 픽처의 전부가 사용되지 않을 수 있다. 다라서, 임시 재생성된 v1 픽처는 재생성된 v2 픽처를 예측하기 위한 정보만을 포함할 수도 있다. 따라서, 실시예들에 따른 디코더 포스트-프로세싱부는 예측된 스파스 뷰 픽처(s2)를 생성하기 위한 스파스 뷰 리제너레이션부를 포함할 수 있다.

스파스 뷰 픽처(s2)가 재생성(또는 예측)된 경우, 재생성된 v2 픽처는 센터 뷰 픽처(c0) 및/또는 예측된 스파스 뷰 픽처(s2)에 의해 생성될 수 있다. 따라서, 도 37에서 도시된 바와 같이, 스파스 뷰 재생성부는 재생성된 v2 픽처를 재생성하기 위한 뷰 리제너레이션부에 앞서 수행될 수 있다.

sparse_view_regeneration_type equal이 3인 경우, 스파스 뷰 재생성 동작은 도 37에 따라 수행될 수 있다. 도 37에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 여기서, 실시예들에 따른 스파스 뷰 재생성 동작을 수행하기 앞서, 임시 재생성된 뷰(v1)을 생성할 수 있다. 임시 재생성된 뷰는 레퍼런스 뷰로 호칭할 수도 있다. 도 37에 따른 스파스 뷰(s2)를 예측(prediction)하는 경우, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

실시예들에 따르면, 디코더 또는 수신기는 뷰 재생, 희소 뷰 재생 및/또는 뷰 재생을 수행한다.

뷰 재생 (37000) (또는 뷰 재생기)은 중심 뷰 (c0) 및 희소 뷰 (s1)에 기초하여 시간적으로 생성된 뷰 (v1)를 생성한다. 실시 예들에 따르면, 시간적으로 생성된 뷰는 실시 예들에 따라 시간적으로 스파 스 뷰 재생을 위해 사용되는 뷰 픽쳐이다.

희소 뷰 재생 (37001) (또는 희소 뷰 재생기)은 시간적으로 생성된 뷰 (v1)에 기초하여 추정된 희소 뷰 (s2)를 생성한다. 실시 예들에 따르면, 수신된 스파스 뷰 (s2)를 사용하는 대신에, 중심 추정 (c0), 스파스 뷰 (s1), 시간적으로 생성된 뷰 (v1)를 재생함으로써 (추정된) 스파스 뷰 (s2)가 생성된다.

뷰 재생 (37002) (또는 뷰 재생기)은 중심 뷰 (c0) 및 추정 스파스 뷰 (s2)에 기초하여 재생 뷰 (v2)를 생성합니다. 재생 뷰 (v2)는 중심 뷰 (c0)와 희소 뷰 (s1)를 사용하여 생성된다.

또한 실시예들에 따른 뷰 재생성하는 단계는, 제 2 모드로서 센터 뷰 픽처 및 스파스 뷰 픽처들 내에 포함된 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰에 기초하여, 제 1 뷰잉 포지션과 관련된 임의 생성 뷰(temporally generated view)를 생성하는 단계, 임의 생성 뷰로부터 제 2 뷰잉 포지션과 관련된 제 2 스파스 뷰 픽처를 추정하는 단계 및 추정된 제 2 스파스 뷰 픽처 및 센터 뷰 픽처에 기초하여 제 2 뷰잉 포지션과 관련된 재생성된 뷰를 생성하는 단계를 포함할 수 있다. 여기서, 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 추정하는 단계는 프루닝된 스파스 뷰 픽처에 기초하여 제 2 스파스 뷰 픽처를 추정할 수 있다.

sparse_view_regeneration_type equal이 4인 경우, 스파스 뷰 재생성 동작은 도 38에 따라 수행될 수 있다. 이 경우, 프루닝된 스파스 뷰 픽처가 디코딩된 및/또는 언패킹된 픽처들에 포함되지 않을 수 있다.

도 38에 따른 레퍼런스 스파스 뷰(reference sparse view, s1)는 reference_sparse_view_id에 의해 나타내어질 수 있다. 실시예들에 따른 디코더 포스트-프로세싱부가 레퍼런스 뷰를 재생성한 경우, 타겟 뷰가 뷰 합성부의 동작에 의해 재생성될 수 있다. 여기서 뷰 합성을 수행하는 경우, 레퍼런스 뷰(즉, 재생성된 v1 픽처)의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)를 이용하여 뷰들 간의 디스페리티(disparity)를 계산할 수 있다. 여기서, 레퍼런스 스파스 뷰의 위치(location), 회전(rotation), 커버리지(coverage)와 타겟 뷰의 위치(location), 회전(rotation), 커버리지(coverage)는 reference_sparse_view_id, target_view_id 각각에 대응하는 뷰 포지션 디스크립터 정보(즉, view_position_descriptor())에 의해 나타내어질 수 있다.

실시예들에 따르면, 디코더는 뷰 재생 및/또는 뷰 합성을 수행한다.

뷰 재생 (38000) (또는 뷰 재생기)은 중심 뷰 (c0) 및 희소 뷰 (s1)에 기초하여 재생 뷰 (v1)를 생성한다.

뷰 합성 (38001) (또는 뷰 합성기)은 중심 뷰 (c0) 및 재생 뷰 (v1)에 기초하여 재생 뷰 (v2)를 합성한다. 실시예들에 따르면, 뷰 합성은 새로운 시점 또는 목표 시점에 대한 시점을 생성한다.

실시예들에 따른 비디오 수신 방법은 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계; 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계, 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계 및, 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계를 포함할 수 있다. 여기서, 언패킹된 비트스트림은 시그널링 정보를 포함할 수 있다.

이러한 구성으로 인해, 실시예들에 따른 수신 장치는 타겟 뷰를 효율적으로 합성할 수 있다. 이러한 실시예들에 따른 스파스 뷰 프루닝부 및 레지듀얼 디텍션부는, 불필요하거나 중복되는 정보들을 더 제거하여 실시예들에 따른 전송 장치의 데이터 송신 효율을 높일 수 있다.

본 도면의 구성, 동작 및 다른 특징은 첨부 도면을 참조하여 설명된 본 도면의 실시 예에 의해 이해된다. 본 도면에서는

다음으로, 시점의 상이한 시청 위치를 나타내는 다수의 구형 이미지의 효율적인 전달을 지원하기위한 다수의 방법론이 제공된다. 이하 도 39에서 나타난 파라미터들은 뷰 리제너레이션 정보 SEI 메시지 또는 멀티 뷰 패킹 및 뷰 재생 정보 SEI 메시지에 포함될 수 있다.

실시예들에 따른 스파스 뷰 리제너레이션 정보 SEI 메시지는 실시예들에 따른 스파스 뷰 픽처의 재생성을 수행하는 것에 관한 정보를 나타낸다.

sparse_view_regeneration_info_id 는 스파스 뷰 리제너레이션의 목적을 나타내기 위한 식별자 숫자 정보를 포함(contains an identifying number that may be used to identify the purpose of sparse view regeneration)할 수 있다. sparse_view_regeneration_info_id의 값은 이 SEI 메시지의 다른 사용 사례를 나타내거나, 다른 수신기 기능을 지원하거나, 다른 스파스 뷰 픽처의 재생 방법을 나타내거나, 또는 뷰의 재생성하기 앞서 스파스 뷰 픽처를 재생하는 동작을 필요로하는 다른 뷰들에 대한 위치(텍스처 및 뎁스 등)를 나타내는 데 사용될 수있다.

하나 이상의 스파스 뷰 리제너레이션 인포메이션 SEI 메시지가 뷰 리제너레이션 인포 아이디(sparse_view_regeneration_info_id)의 같은 값과 함게 존재하는 경우, 이 뷰 리제너레이션 인포메이션 SEI 메시지의 컨텐츠는 같다. 스파스 뷰 리제너레이션 인포메이션 SEI 메시지가 존재하는 경우, 이때 스파스 뷰 리제너레이션 인포 아이디(sparse_view_regeneration_info_id)의 하나 이상의 값을 갖을 때 이 정보는 스파스 뷰 리제너레이션 인포 아이디의 다른 값들에 의해 나타내지는 정보임을 나타낸다. 또한, 다른 목적들, 다른 컴포넌트들, 예를 들어 텍스쳐, 뎁스 등을 위해서 제공되거나 또는 코렉션의 연속인 대안정보이다. 스파스 뷰 리제너레이션 인포 아이디의 값의 범위는 0부터 2의12승 마이너스 1 (포함)일 수 있다 (When more than one sparse view regeneration information SEI message is present with the same value of sparse_view_regeneration_info_id, the content of these sparse view regeneration information SEI messages may be the same. When sparse view regeneration information SEI messages are present that have more than one value of sparse_view_regeneration_info_id, this may indicate that the information indicated by the different values of sparse_view_regeneration_info_id are alternatives that are provided for different purposes, for different component (such as texture, depth, etc) or that a cascading of correction. The value of sparse_view_regeneration_info_id may be in the range of 0 to 2 ¹² - 1, inclusive.)

sparse_view_regeneration_info_cancel_flag 이 1의 값인 경우 스파스 뷰 리제너레이션 인포메이션 SEI 메시지가 커런트 레이어에 적용하는 아웃풋 오더 내 이전 스파스 뷰 리제너레이션 인포메이션 SEI 메시지의 퍼시스턴스를 캔슬하는 것을 나타낸다. 이 값이 0을 갖는 경우 텍스쳐 뎁스 리제너레이션 인포메이션이 팔로우함을 나타낸다.(equal to 1 indicates that the sparse view regeneration information SEI message cancels the persistence of any previous sparse view regeneration information SEI message in output order that applies to the current layer. sparse_view_regeneration_info_cancel_flag equal to 0 indicates that sparse view regeneration information follows.)

sparse_view_regeneration_info_persistence_flag 는 커런트 레이어를 위한 스파스 뷰 리제너레이션 인포메이션 SEI 메시지의 퍼시스턴스를 설명한다(specifies the persistence of the sparse view regeneration information SEI message for the current layer).

sparse_view_regeneration_info_persistence_flag가 0이면, 스파스 뷰 리제너레이션 인포메이션이 커런트 디코딩된 픽쳐에만 적용됨을 나타낸다. (sparse_view_regeneration_info_persistence_flag equal to 0 specifies that the sparse view regeneration information applies to the current decoded picture only.)

픽쳐A가 커런트 픽쳐인 경우를 예로 설명하면 다음과 같다. 스파스 뷰 리제너레이션 인포 퍼시스턴스 플래그가 1이면, 스파스 뷰 리제너레이션 인포메이션 SEI 메시지는 다음 컨디션들이 트루가 될때까지 아웃풋 오더로 커런트 레이어를 위해 계속된다.

- 커런트 레이어의 뉴 CLVS가 시작

- 비트스트림이 끝

- 커런트 레이어에 적용 가능한 스파스 뷰 리제너레이션 인포메이션 SEI 메시지를 포함하는 어세스 유닛의 커런트 레이어 내 픽쳐B가 출력되는데 PicOrderCnt( picB )가 PicOrderCnt( picA )보다 큰 경우. 여기서 PicOrderCnt( picB ) 및 PicOrderCnt( picA )는 각각 픽쳐A 및 픽쳐B의 PicOrderCntVal 값들이고, 픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인포케이션 이후 바로이다 (Let picA be the current picture. sparse_view_regeneration_info_persistence_flag to 1 specifies that the sparse view regeneration information SEI message persists for the current layer in output order until any of the following conditions are true:

A new CLVS of the current layer begins.

The bitstream ends.

A picture picB in the current layer in an access unit containing a sparse view regeneration information SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

num_sparse_view_minus1 는 이 SEI 메시지에서 스파스 뷰 리제너레이션(sparse view regeneration) 동작에 의해 컴포넌트를 생성하는 경우, 해당 스파스 뷰 리제너레이션이 수행되는 뷰들의 개수(도는 뷰들의 개수에 1을 뺀 값)를 나타낸다. (num_sparse_view_minus1 plus 1 specifies the number of views that needs sparse view regeneration process to generate the component of the viewing position by this SEI message.)

target_view_id 는 스파스 뷰 리제너레이션 동작(sparse view regeneration process)의 헤드 포지션 또는 뷰잉 포지션의 개수를 나타내는 시그널링 정보이다. 같은 SEI 메시지 또는 다른 SEI 메시지에서 설명되는 3DoF+의 뷰잉 포지션들의 개수를 식별하는 프리-디파인드된 정보 중의 하나이다. 실시예들에 따르면 target_view_id[i]는 타겟 뷰에 대한 식별 정보를 나타낸다. (target_view_id specifies the i-th identifying number of the viewing position or head position of the sparse view regeneration process. This value may be one of the pre-defined identifying number of a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_view_id specified in the multiview region-wise packing SEI message, viewing_position_id specified in the viewing position group information SEI message. In accordance with embodiments, target view id [i] represents identifier information for a target view.)

num_components[　i　] i번째 뷰와 관련된 컴포넌트들의 개수를 나타낸다. (specifies the number of the components that are related to the i-th view)

component_id[　i　][　j　] 는 i번째 컴포넌트를 예측(도는 재생성, reconstruct, predict)하기 위해 사용되는 레퍼런스 뷰잉 포지션(reference viewing position) 또는 헤드 포지션(head position)의 실시예들에 따른 j번째 컴포넌트를 식별하는 식별자(숫자)를 나타낸다. (specifies the identifying number of the j-th component of a reference viewing position or head position that is used to estimate (to regenerate, to reconstruct, or to predict) the i-th component). 이 값은 멀티 뷰 리전 별 패킹 SEI 메시지에 지정된 mrwp_component_id와 같이 동일하거나 다른 SEI 메시지에 지정된 3DoF + 비디오의 뷰잉 포지션에 속하는 구성 요소의 사전 정의 된 식별 번호 중 하나일 수 있다.

component_type[　i　][　j　] i번째 컴포넌트의 타입을 나타낸다.

component_type[　i　][　j　] 이 0 인 경우, 컴포넌트의 타입은 미정일 수 있다. (0 indicates the type of the component is unspecified.)

component_type[　i　][　j　] 이 1인 경우, 컴포넌트는 비디오 또는 텍스처 컴포넌트를 의미할 수 있다. (1 indicates the component is a video or texture component.)

component_type[　i　][　j　] 이 2인 경우, 컴포넌트는 뎁스 맵(a depth map)을 나타낼 수 있다.

component_type[　i　][　j　] 이 3인 경우 컴포넌트는 알파 채널을 의미할 수 있다. (3 indicates the component is an alpha channel) 픽셀의 값이 1인 경우, 해당 픽셀 위치에 대응하는 텍스처 픽처의 픽셀 값은 투명이 아닐 수 있다(When the value of a pixel equals to 1, the value in a texture picture at the corresponding pixel location is not transparent). 픽셀의 값이 0인 경우, 해당 픽셀은 투명일 수 있다(transparent).

component_type[　i　][　j　] 이 4인 경우 컴포넌트는 유용성 표시를위한 인디케이션 맵을 의미할 수 있다 (4 indicates the component is an indication map for usability indication). 픽셀의 값이 0인 경우, 해당 픽셀 위치에 대응하는 텍스처 픽처의 픽셀 값은 오클루전 인헨스먼트(occlusion enhancement) 동작을 위한 대상이 되는 픽셀일 수 있다. 픽셀의 값이 0인 경우, 해당 픽셀은 오클루전 인헨스먼트 동작이 수행되지 않는 픽셀일 수 있다.

component_type[　i　][　j　] 이 5인 경우 컴포넌트는 오버레이를 의미할 수 있다 (5 indicates the component is a overlay)

component_type[　i　][　j　] 이 6에서 15인 경우, 추후 사용을 위해 남겨둔 것일 수 있다.

따라서 실시예들에 따르면, 컴포넌트 타입 정보는 텍스처(texture), 뎁스(depth), 알파 채널(alpha channel), 오버레이(overlay) 등을 나타낼 수 있다.

pruned_sparse_view_present_flag[　i　][　j　] 가 1인 경우, i번째 뷰잉 포지션의 j번째 컴포넌트에 대한 프루닝된 스파스 뷰가 존재함을 나타낸다. (equal to 1 specifies the pruned_sparse_view is present for the j-th component of the i-th viewing position). pruned_sparse_view_present_flag[　i　][　j　] 가 0인 경우, i번째 뷰잉 포지션의 j번째 컴포넌트에 대한 프루닝된 스파스 뷰가 존재하지 않음을 나타낸다. 따라서, 스파스 뷰 리제너레이션 동작은 추가 정보 없이 수행될 수 있다. 예를 들어, 레퍼런스 스파스 뷰를 바로 예측하거나, 스파스 뷰 픽처를 레퍼런스 뷰 픽처를 이용하여 바로 예측하는 것이 있을 수 있다. (specifies the pruned_sparse_view is not present for the j-th component of the i-th viewing position so sparse view regeneration process may be processed without additional information, e.g., prediction of reference sparse view or directly predict the sparse view from the reference views.)

reference_sparse_view_present_flag[　i　][　j　] 이 1인 경우, i번째 뷰잉 포지션의 j번째 컴포넌트에 대한 레퍼런스 스파스 뷰가 존재함을 나타낸다. (specifies the reference sparse view is present for the j-th component of the i-th viewing position.) 반면, reference_sparse_view_present_flag[　i　][　j　] 가 0인 경우, 레퍼런스 스파스 뷰가 i번째 뷰잉 포지션의 j번째 컴포넌트에 대한 레퍼런스 스파스 뷰가 존재하지 않음을 나타낸다. (the reference sparse view is not present for the j-th component of the i-th viewing position)

sparse_view_regeneration_type[　i　][　j　] 는 i번째 뷰잉 포지션의 j번재 컴포넌트에 대한 추천되는 스파스 뷰 리제너레이션 동작을 나타낸다. (specifies the indicator of the recommended sparse view regeneration process for the j-th component of the i-th viewing position.)

sparse_view_regeneration_type[　i　][　j　] 이 0인 경우, 스파스 뷰 리제너레이션이 미정임을 나타낸다. (0 indicates the type of the recommended sparse view regeneration is unspecified.)

sparse_view_regeneration_type[　i　][　j　] 이 1인 경우, 스파스 뷰 리제너레이션 스킴 1이 추천(사용)된다. 본 명세서에서 스파스 뷰 리제너레이션 스킴 1은 실시예들에 따른 레퍼런스 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처를 이용하여 i번째 뷰잉 포지션에 대한 j번째 컴포넌트에 대한 스파스 뷰 픽처를 생성하는 것을 의미한다. (equal to 1 indicates that the sparse view regeneration scheme 1 is recommended. In this document, type 1 could be a scheme that uses both reference sparse view and pruned sparse view to regenerate the sparse view of the j-th component of the i-th viewing position.) 구체적인 동작은 도 55에서 설명한다.

sparse_view_regeneration_type[　i　][　j　] 이 2 경우, 스파스 뷰 리제너레이션 스킴 2이 추천(사용)된다. 본 명세서에서 스파스 뷰 리제너레이션 스킴 2는 프루닝된 스파스 뷰 픽처(pruned sparse view) 없이 실시예들에 따른 레퍼런스 스파스 뷰(reference sparse view picture) 픽처만을 이용하여 i번째 뷰잉 포지션에 대한 j번째 컴포넌트에 대한 스파스 뷰 픽처를 생성하는 것을 의미한다. (equal to 2 indicates that the sparse view regeneration scheme 2 is recommended. In this document, type 2 could be the scheme that predicts the sparse view from the reference sparse view without pruned sparse view of the j-th component of the i-th viewing position.)구체적인 동작은 도 57에서 설명한다.

sparse_view_regeneration_type[　i　][　j　] 이 3 경우, 스파스 뷰 리제너레이션 스킴 3이 추천(사용)된다. 본 명세서에서 스파스 뷰 리제너레이션 스킴 3은 실시예들에 따른 프루닝된 스파스 뷰(pruned sparse view) 픽처 없이 임시 재생성된 뷰 픽처를 이용하여 스파스 뷰 픽처를 생성(예측)하는 것을 의미한다. 프루닝된 스파스 뷰 픽처 없이 실시예들에 따른 레퍼런스 스파스 뷰 픽처만을 이용하여 i번째 뷰잉 포지션에 대한 j번째 컴포넌트에 대한 스파스 뷰 픽처를 생성하는 것을 의미한다. (equal to 3 indicates that the sparse view regeneration scheme 3 is recommended. In this document, type 3 could be the scheme that predicts the sparse view from the regenerated view without pruned sparse view of the j-th component of the i-th viewing position.) 구체적인 동작은 도 58에서 설명한다.

sparse_view_regeneration_type[　i　][　j　] 이 4인 경우, 스파스 뷰 리제너레이션 스킴 3이 추천(사용)된다. 본 명세서에서 스파스 뷰 리제너레이션 스킴 4는 인접하는 재생성된 뷰를 이용하여 다른 재생성된 뷰를 예측(predict)하는 것을 의미한다. (equal to 4 indicates that the sparse view regeneration scheme 4 is recommended. In this document, type 4 could be the scheme that predicts the regenerated view with the adjacent regenerated view. 구체적인 동작은 도 59에서 설명한다.

다른 sparse_view_regeneration_type[　i　][　j　]의 값은 추후의 사용을 위해 남겨둔 값일 수 있다. (Other valuse of sparse_view_regeneration_type[　i　][　j　] are reserved for future use cases.)

pruned_sparse_view_id[　i　][　j　] and reference_sparse_view_id[　i　][　j　] 는 각각 프루닝된 스파스 뷰(pruned sparse view) 픽처 및 레퍼런스 스파스 뷰(reference sparse view) 픽처를 식별하는 식별자(숫자)를 나타낸다. 구체적으로, 각각 i번째 뷰잉 포지션(viewing position, 또는 헤드 포지션)의 j번째 컴포넌트의 스파스 뷰 재생성과 관련된 프루닝된 스파스 뷰 픽처 및 레퍼런스 뷰 픽처를 나타낼 수 있다. (specifies the identifying number of the pruned sparse view and reference sparse view those are related to the sparse view regeneration of the j-th component of the i-th viewing position or head position.)

pruned_sparse_view_id[　i　][　j　] 및 reference_sparse_view_id[　i　][　j　]의 값은, 동일한 또는 다른 SEI 메시지 내(예를 들어, multiview region-wise packing SEI messag에 있는 mrwp_component_id 또는 viewing position group information SEI message에 있는 picture_id 등) 에서 나타난 3DoF+ 비디오의 뷰잉 포지션들에 속하는 하나의 컴포넌트를 식별하는 기 정의된 숫자 중의 하나일 수 있다.(This value can be one of the pre-defined identifying number of a component that belongs to a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_component_id specified in the multiview region-wise packing SEI message, or picture_id specified in the viewing position group information SEI message.)

실시예들에 따른 스파스 뷰 리제너레이션에서, 해당 식별자는 실시예들에 따른 수신 장치의 디코더 포스트-프로세싱부에 따라 관리 또는 제어(manage)될 수 있다. 따라서, 실시예들에 따른 수신 장치는 언패킹 동작에 의해 생성된 픽처들과 뷰 리제너레이션(및/또는 뷰 합성 및/또는 뷰포트 렌더러)을 위해 사용되는 픽처들 간의 관계를 제공할 수 있다. (In the other implementation of the sparse view regeneration, the identifier could be managed within the receiver decoder post-processing so that could provide linkage between pictures generated from unpacking process and the pictures used for the view regeneration including sparse view regeneration or view synthesis and viewport renderer.)

레퍼런스 스파스 뷰와 관련하여, 뷰잉 포지션은 현재 및 레퍼런스 뷰잉 포지션들 간의 디스페리티(disparity 또는 시차)를 제공하기 위해 사용될 수 있다. (In case of reference sparse view, the view position could be provided to use the disparity between the current and the reference viewing positions.)

스파스 뷰 리제너레이션 동작에 대하여, 현재 뷰잉포지션 및/또는 다른 뷰잉 포지션의 텍스처 및/또는 뎁스의 식별자가, 다른 컴포넌트 타입 내의 정보로 활용하기 위해 제공될 수 있다.(For the sparse view regeneration process, the identifier of texture and/or depth of the current and/or other viewing position could be provided to utilize the information in the other component type.)

i번째 뷰잉 포지션의 j번째 컴포넌트 각각에 대하여, 실시예들에 따른 스파스 리제너레이션 동작 내에서 사용될 수 있는 상세한 파라미터 값들(예를 들어, 각각의 패치(patch)들의 위치에 관한 정보, 픽처들/패치들, 웨이팅 함수(weighting function)들 등 간의 전체/로컬 디스페리티 값들)이 사용될 수 있다. (In each of the j-th component of the i-th viewing position, detailed parameter values which could be used in the sparse view regeneration process, such as location of each patches, global/local disparity values between pictures/patches, wieghting functions, etc, could be provided.)

viewing_position_id 는 뷰잉 포지션에 대한 식별자를 나타낸다. 본 파라미터는 뷰잉 포지션(viewing position), 오리엔테이션(orientation), 커버리지(coverage)에 의해 기술될 수 있다. 본 파라미터는 viewing_position_x, viewing_position_y, and viewing_position_z, viewing_orientation_yaw, viewing_orientation_pitch, viewing_orientation_roll, coverage_horizontal coverage_vertical, 각각의 파라미터에 의해 기술될 수 있다. (viewing_position_id indicate the identifier of a viewing position that is described by the viewing position, orientation and coverage, specified by viewing_position_x, viewing_position_y, and viewing_position_z, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll, and coverage_horizontal and coverage_vertical, respectively.) viewing_position_id 은 다른 뷰잉 포지션과의 차이를 구별하기 위해 기술되는 파라미터일 수 있다. (The parameters or features which describe the viewing position could be added to differentiate different viewing positions.)

viewing_position_x, viewing_position_y, viewing_position_z 는 각각 2의 -16승 밀리미터(millimeters) 단위로써, 디코딩된 픽처의 뷰잉 포지션의 (x, y, z) 위치를 나타내기 위한 정보일 수 있다. viewing_position_x, viewing_position_y 및 viewing_position_z의 범위는 -32768*2^16 - 1 (i.e., -2147483647) 이상 32768　* 2^16 (i.e.,　2147483648) 이하를 포함할 수 있다. (indicate the (x,y,z) location of viewing position corresponding to the decoded picture in the units of 2 ^-16 millimeters, respectively The range of viewing_position_x, viewing_position_y and viewing_position_z may be in the range of -32768　*　2 ¹⁶　-　1 (i.e.,　-2147483647) to 32768　*　2 ¹⁶ (i.e.,　2147483648), inclusive.)

viewing_position_x, viewing_position_y and viewing_position_z의 값은 XYZ 좌표로 절대 위치로 표현될 수도 있고, 또는 앵커 위치(중심 위치)로부터 상대 위치로 표현될 수도 있다.(The value of viewing_position_x, viewing_position_y and viewing_position_z could be reprsented by absolute position in the XYZ coordinate or relateive position corresponding to the anchor location.)

viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll 는 2^-16 도(degree) 단위로 요(yaw), 피치(pitch), 롤(roll) 오리엔테이션(orientation) 각도를 의미할 수 있다. viewing_orientation_yaw의 값은 -180 * 2^16 (i.e.,　-11796480)이상 180 * 2^16 (i.e.,　11796480)이하의 범위를 포함할 수 있다. viewing_orientation_pitch의 값은 -90 * 2^16 (i.e.,　-5898240)이상 90 * 2^16 (i.e.,　5898240)이하의 범위를 포함할 수 있다. viewing_orientation_roll의 값은 -180 * 2^16 (i.e.,　-11796480)이상 180 * 2^16 (i.e.,　11796480)이하의 범위를 포함할 수 있다. (indicate the yaw, pitch, and roll orientation angles in units of 2 ^-16 degrees, repectively. The value of viewing_orientation_yaw may be in the range of -180　*　2 ¹⁶ (i.e.,　-11796480) to 180　*　2 ¹⁶　-　1 (i.e.,　11796479), inclusive, the value of viewing_orientation_pitch may be in the range of -90　*　2 ¹⁶ (i.e.,　-5898240) to 90　*　2 ¹⁶ (i.e.,　5898240), inclusive, and the value of viewing_orientation_roll may be in the range of -180　*　2 ¹⁶ (i.e.,　-11796480) to 180　*　2 ¹⁶　-　1 (i.e.,　11796479), inclusive.)

실시예들에 따라, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll는 각각 아지무스(azimuth), 엘리베이션(elevation) 및 틸트(tilt)로 사용될 수도 있다. (Depending on the applications, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll could be used to indicate azimuth, elevation, and tilt, respectively.)

coverage_horizontal 및 coverage_vertical 은 뷰잉 포지션(viewing position)의 커버리지의 수평 범위(horizontal ranges) 및 수직 범위(vertical ragnes)를 나타낸다. 각각의 범위의 단위는 2의 -16승 도(degree)이다. (specifies the horizontal and vertical ranges of the coverage of the viewing position corresponding to the decoded picture, in units of 2 ^-16 degrees, respectively.)

실시예들에 따른 비디오 전송 장치 및 비디오 수신 장치는 뷰잉 포지션들에 대한 텍스처 및 깊이 픽처들을 리제너레이트하기 위해 시그널링 정보 및/또는 메타 데이터로 지칭 될 수 있는 스파스 뷰 리제너레이션 정보를 사용(전송/수신)할 수 있다.

실시예들에 따른 시그널링 정보 (스파스 뷰 리젠너레이션 정보)는 도32에 보다 구체적으로 설명 된 스파스 뷰 프루닝의 프로세스에서 생성 될 수 있다. 실시예들에 따른 시그널링 정보 (스파스 뷰 리제너레이션 정보)는 도 33에 보다 구체적으로 설명되는 스파스 뷰 리제너레이션의 프로세스에서 사용될 수있다

실시예들에 따르면, 시그널링 정보 (스파스 뷰 리제너레이션 정보)가 도 30 내지 42에 사용된다.

실시예들에 따른 비디오 전송 장치가 전송하는(또는 실시예들에 따른 비디오 수신 장치가 수신하는), 시그널링 정보는 뷰잉 포지션 그룹 정보(viewing position group information)를 포함하고, 뷰잉 포지션 그룹 정보는 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 포함할 수 있다.

다시 말해, 도 31에서 설명하는 실시예들에 따른 Viewing position group information SEI message syntax는 실시예들에 따른 비디오 송신 방법 및 실시예들에 따른 비디오 수신 방법의 동작에 대한 시그널링 정보의 신텍스의 실시예를 나타낸 것이다. 즉, 실시예들에 따른 비디오 송신 방법 및 실시예들에 따른 비디오 수신 방법(또는 장치)는 도 31에 나타난 실시예들에 따른 Viewing position group information SEI message syntax 내의 시그널링 정보 및 파라미터들의 전부 또는 일부를 전송하거나 수신할 수 있다.

실시예들에 따른 Viewing position group information SEI message syntax 또는 그 중 일부는 송신단에서 실시예들에 따른 인코더에 의해 인코딩된 비트스트림 내에 포함될 수도 있고, 실시예들에 따른 인코더 이외의 블록 또는 모듈로부터 전송되는 정보를 의미할 수도 있다. 반대로, Viewing position group information SEI message syntax 또는 그 내에 포함된 일부 파라미터 또는 파라미터의 그룹들은 수신단에서 수신되는 비트스트림 내에 포함될 수도 있고, 별도의 경로를 통해 수신될 수도 있다.

구체적으로 말하면, 도 31에 나타난 Viewing position group information SEI message syntax 내의 시그널링 정보 및 파라미터들은 인코더 단(송신단)의 실시예들에 따른 인코더에 의해 모두 인코딩되어 전송될 수도 있고, 그 중 일부만 인코더에 의해 인코딩되어 전송될 수도 있다.

따라서, 실시예들에 따른 Viewing position group information SEI message syntax는 도 24 내지 도 40에서 설명하는 시그널링 정보들의 전부 또는 일부를 포함할 수 있다. 예를 들어, 도 25에서 실시예들에 따른 패킹 메타데이터(packing metadata), 리컨스트럭션 파라미터(reconstruction parameter)는 Viewing position group information SEI message syntax의 일부에 포함될 수도 있고, 반대로 Viewing position group information SEI message syntax은 패킹 메타데이터(packing metadata), 리컨스트럭션 파라미터(reconstruction parameter) 중 일부만 포함할 수도 있다.

마찬가지로, 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 레퍼런스 뷰 정보(reference view information), 리제너레이션 정보(regeneration information), 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 신테시스 레코멘데이션 정보(view synthesis recommandation information)는 Viewing position group information SEI message syntax의 일부에 포함될 수도 있고, 그 반대로 Viewing position group information SEI message syntax은 상술한 관련 시그널링 정보의 일부만 포함할 수도 있다. 마찬가지로 도 28에서 실시예들에 따른 시그널링 정보들도 Viewing position group information SEI message syntax의 일부에 포함되거나, 그 반대일 수도 있다.

이하에서는 실시예들에 따른 시그널링 정보의 실시예로, Viewing position group information SEI message syntax를 설명한다.

뷰잉 포지션 그룹 인포메이션 SEI 메시지(Viewing position group information SEI message)는 3D 가상 공간 및 프리-디코딩 프로세스 내에서 뷰잉 포지션 그룹(viewing position group)의 정보 및 뷰잉 포지션 그룹 간의 관계(relationship between them)를 제공한다. 예를 들면, 뷰잉 포지션 그룹 인포메이션 SEI 메시지는 뷰잉 포지션에 대하여 리제너레이션 프로세스(regeneration process)에서 픽처들을 복구(restore)하기 위한 정보를 제공할 수 있다. (The Viewing position group information SEI message provides information of the a viewing position group and the relationship between them in the 3D virtual space and post-decoding process (e.g., regeneration process to restore pictures of intended viewing positions) corresponding to a viewpoint (or center/anchor viewing position))

viewing_position_group_info_id 는 뷰잉 포지션 인포메이션의 목적을 식별하는 식별번호를 포함한다. viewing_position_info_id 의 값은 다른 리시버 캐퍼빌리티를 서포트하기 위해서, 또는 다른 포인트 또는 이 SEI 메시지에 포함된 정보의 다른 레벨을 인디케이팅하기 위해서 등 이 SEI 메시지의 다른 유즈 케이스를 나타내는데 사용될 수 있다.

하나 이상의 뷰잉 포지션 정보 SEI 메시지가 뷰잉포지션 그룹 인포 아이디(viewing_posidion_group_info_id)의 같은 값과 함게 존재하는 경우, 이 뷰 리제너레이션 인포메이션 SEI 메시지의 컨텐츠는 같다. 뷰잉 포지션 정보 SEI 메시지가 존재하는 경우, 이때 뷰잉포지션 그룹 인포 아이디(sparse_view_regeneration_info_id)의 하나 이상의 값을 갖을 때 이 정보는 뷰잉포지션 그룹 인포 아이디의 다른 값들에 의해 나타내지는 정보임을 나타낸다. 또한, 다른 목적들, 다른 컴포넌트들, 예를 들어 텍스쳐, 뎁스 등을 위해서 제공되거나 또는 코렉션의 연속인 대안정보이다. 뷰잉포지션 그룹 인포 아이디의 값의 범위는 0부터 2의12승 마이너스 1 (포함)일 수 있다 (When more than one viewing position information SEI message is present with the same value of viewing_posidion_group_info_id, the content of these viewing position group information SEI messages may be the same. When viewing position group information SEI messages are present that have more than one value of viewing_position_group_info_id, this may indicate that the information indicated by the different values of viewing_posidion_group_info_id are alternatives that are provided for different purposes or that a cascading of correction to be applied in a sequential order (an order might be specified depending on the application). The value of viewing_posidion_group_info_id may be in the range of 0 to 2 ¹² 1, inclusive.)

viewing_position_group_info_cancel_flag 이 1의 값을 가지면, 뷰잉 포지션 그룹 정보 SEI 메시지가 커런트 레이어에 적용되는 아웃풋 오더 내 이전 뷰잉 포지션 그룹 정보 SEI 메시지의 퍼시스턴스를 캔슬하는 것을 나타낸다. viewing_position_group_info_cancel_flag 가 0이면 멀티뷰 리젼-와이즈 패킹 정보가 팔로우함을 나타낸다 (equal to 1 indicates that the viewing position group information SEI message cancels the persistence of any previous viewing position group information SEI message in output order that applies to the current layer. viewing_position_group_info_cancel_flag equal to 0 indicates that viewing position group information follows.)

viewing_position_group_info_persistence_flag 는 커런트 레이어를 위한 뷰잉포지션 정보 SEI 메시지의 퍼시스턴스를 설명한다. (specifies the persistence of the viewing position group information SEI message for the current layer.)

픽쳐A가 커런트 픽쳐인 경우를 예로 설명하면 다음과 같다. viewing_position_group_info_persistence_flag가 1이면, 뷰잉포지션 인포메이션 SEI 메시지는 다음 컨디션들이 트루가 될때까지 아웃풋 오더로 커런트 레이어를 위해 계속된다.

- 커런트 레이어의 뉴 CLVS가 시작

- 비트스트림이 끝

- 커런트 레이어에 적용 가능한 뷰잉 포지션 정보 SEI 메시지를 포함하는 어세스 유닛의 커런트 레이어 내 픽쳐B가 출력되는데 PicOrderCnt( picB )가 PicOrderCnt( picA )보다 큰 경우. 여기서 PicOrderCnt( picB ) 및 PicOrderCnt( picA )는 각각 픽쳐A 및 픽쳐B의 PicOrderCntVal 값들이고, 픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인포케이션 이후 바로이다.

(viewing_position_group_info_persistence_flag equal to 0 specifies that the viewing position group information applies to the current decoded picture only.

Let picA be the current picture. viewing_position_group_info_persistence_flag to 1 specifies that the viewing position group information SEI message persists for the current layer in output order until any of the following conditions are true:

- A new CLVS of the current layer begins.

- The bitstream ends.

- A picture picB in the current layer in an access unit containing a viewing position group information SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

viewpoint_id 는 해당 SEI 메시지가 설명하는 뷰잉 포지션 그룹의 뷰포인트를 나타내는 식별자 정보를 의미할 수 있다. (specifies the identifier that indicates the viewpoint of the viewing position group that is described in this SEI message.) 뷰포인트 아이디(viewpoint_id)는 다른 SEI 메시지에서 기술될 수도 있다. 뷰포인트 아이디는 다른 SEI 메시지에서 정의되어 사용자가 한 위치에서 다른 위치로 전환 할 수 있도록 공간적으로 또는 개념적으로 인접한 서로 관련된 VR / AR 환경 또는 관점의 서브 세트를 구성하는 전체 뷰를 기술할 수 있다. (The viewpoint_id might be defined in the other SEI message to describe the overall viewpoints that consists the overall VR/AR environment or subset of viewpoints those are related to each other with spatially or conceptually adjacent so that user could switch from one position to the other positions.) 다시 말해, viewpoint_id는 뷰포인트 맵(viewpoint map)이 있다는 가정 하에 해당 뷰포인트가 어디에 위치하는지를 나타낼 수 있다.

뷰포인트는 해당 뷰잉 포지션 중 하나를 의미할 수 있다. 예를 들어, 센터 뷰잉 포지션 또는 앵커 뷰잉 포지션이 그것이다. (The viewpoint could be one of the viewing positions, such as center viewing position or anchor viewing position, which could represent the viewing position group.)

실시예들에 따르면, 뷰포인트는 view_point_descriptor()에 의해 지시되는 XYZ 좌표, 시선 방향(viewing orientation, yaw, pitch, roll), 수평 및/또는 수직 커버리지(horizontal and vertical coverage)에 의해 나타내어질 수도 있다. (The details of viewpoint could be described by XYZ position, viewing orientation (yaw, pitch, and roll), and horizontal and vertical coverage described in view_point_descriptor(). In this case, the viewing_position_id could indicate one of the viewing position defined in this SEI message.)

view_point_descriptor는 뷰포인트(viewpoint)의 위치, 뷰잉 포지션의 적용 범위(즉 전체 coverage에 대한 정보) 및 뷰잉 오리엔테이션에 대한 정보(즉, 전체 rotation에 대한 정보)를 나타내는 정보 또는 디스크립터를 의미한다. view_point_descriptor는 후술할 viewing_position_id, viewing_position_x, viewing_position_y, viewing_position_z, viewing_position_yaw, viewing_position_pitch, viewing_position_roll, coverage_horizontal 및/또는 coverage_vertical을 포함할 수 있다. 여기서 out_of_center_ref_view_present_flag는 could signal the numbers if needed.

center_view_present_flag 가 1인 경우, viewpoint_id에 대응하는 뷰포인트에 대한 실시예들에 따른 수신 픽처들은 센터 뷰에 해당하는 센터 뷰잉 포지션(또는 앵커 뷰잉 포지션, 레프리젠터티브 뷰잉 포지션)을 포함하는 것을 의미할 수 있다. (equal to 1 indicate that the video corresponding to the center (or anchor or representative) viewing position is present in the group of videos for this viewpoint corresponding to viewpoint_id.) center_view_present_flag 가 0인 경우, viewpoint_id에 대응하는 뷰포인트에 대한 실시예들에 따른 수신 픽처들은 센터 뷰에 해당하는 센터 뷰잉 포지션(또는 앵커 뷰잉 포지션, 레프리젠터티브 뷰잉 포지션)을 포함하지 않음을 의미할 수 있다. (equal to 0 indicate that the video the corresponding to the center (or anchor or representative) viewing position is not present in the group of videos for this viewpoint corresponding to viewpoint_id.)

center_view_present_flag 은 해당 SEI 메시지 내에서 viewing_position_picture_type 이 0인 뷰잉 포지션이 적어도 하나 존재하는 경우 1로 설정될 수도 있다. (might be set equal to 1 when at least one viewing position whose viewing_position_picture_type[　i　] equal to 0 is present in the current SEI message. )

out_of_center_ref_view_present_flag 이 1인 경우, 센터(또는 앵커 또는 대표되는, representative) 뷰잉 포지션에 대응하지 않는 비디오(또는 픽처)가 해당 viewpoint_id에 대응하는 뷰포인트(viewpoint)에 대한 비디오들의(또는 픽처들의) 그룹 내에 존재함을 의미한다. out_of_center_ref_view_present_flag이 0인 경우, 센터(또는 앵커 또는 대표되는, representative) 뷰잉 포지션에 대응하지 않는 비디오(또는 픽처)가 해당 viewpoint_id에 대응하는 뷰포인트(viewpoint)에 대한 비디오들의(또는 픽처들의) 그룹 내에 존재하지 않음을 의미한다. out_of_center_ref_view_present_flag는 숫자로 시그널링될 수도 있으며, 센터 뷰잉 포지션에 대응하지 않는 비디오(또는 픽처)의 개수를 나타낼 수도 있다.(equal to 1 indicate that the video that are not corresponding to the center (or anchor or representative) viewing position is present in the group of videos for this viewpoint corresponding to viewpoint_id. out_of_center_ref_view_present_flag equal to 0 indicate that the video that are not corresponding to the center (or anchor or representative) viewing position is not present in the group of videos for this viewpoint corresponding to viewpoint_id. Or this could signal the numbers if needed.)

out_of_center_ref_view_present_flag는 viewing_position_picture_type[　i　]가 1인 적어도 하나의 뷰잉 포지션에 대한 픽처가 현재(current) SEI 메시지 내에 존재하는 경우 1로 설정될 수도 있다. (out_of_center_ref_view_present_flag might be set equal to 1 when at least one viewing position whose viewing_position_picture_type[　i　] equal to 1 is present in the current SEI message.)

source_view_with_regeneration_present_flag 가 1인 경우, 의도하는 픽처를 재생성(reconstruct)하기 위해 추가적인 동작(additional processing) (들)이 필요한 뷰잉 포지션이, 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있음을 의미할 수 있다. (equal to 1 indicate that viewing position that needs additional processing(s) to reconstruct a intended picture is included in the set of viewing positions of a viewpoint that corresponding to the current viewpoint_id.)

source_view_with_regeneration_present_flag가 0인 경우, 의도하는 픽처를 재생성(reconstruct)하기 위해 추가적인 동작(additional processing) (들)이 필요한 뷰잉 포지션이, 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있지 않음을 의미할 수 있다. (source_view_with_regeneration_present_flag equal to 0 indicate that viewing position that needs additional processing(s) to reconstruct a intended picture is not included in the set of viewing positions of a viewpoint that corresponding to the current viewpoint_id.)

source_view_with_regeneration_present_flag는 viewing_position_picture_type[　i　]가 2인 적어도 하나의 뷰잉 포지션에 대한 픽처가 현재(current) SEI 메시지 내에 존재하는 경우 1로 설정될 수도 있다. (source_view_with_regeneration_present_flag might be set equal to 1 when at least one viewing position whose viewing_position_picture_type[　i　] equal to 2 is present in the current SEI message.)

pregenerated_view_present_flag 가 1인 경우, 초기에(originally) 캡처되지 않았으나 인코딩 동작 전에 생성된 뷰잉 포지션(또는 뷰잉포지션에 대한 픽처)가 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있음을 의미할 수 있다. pregenerated_view_present_flag 가 0인 경우, 초기에(originally) 캡처되지 않았으나 인코딩 동작 전에 생성된 뷰잉 포지션(또는 뷰잉포지션에 대한 픽처)가 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있지 않음을 의미할 수 있다. (equal to 1 indicate that viewing position that are not originally captured but generated before encoding is present in the set of viewing positions of a viewpoint that corresonding to the current viewpoint_id. pregenerated_view_present_flag equal to 0 indicate that viewing position that are not originally captured but generated before encoding is not present in the set of viewing positions of a viewpoint that corresonding to the current viewpoint_id.)

pregenerated_view_present_flag는 viewing_position_picture_type[　i　]가 3인 적어도 하나의 뷰잉 포지션에 대한 픽처가 현재(current) SEI 메시지 내에 존재하는 경우 1로 설정될 수도 있다. (pregenerated_view_present_flag might be set equal to 1 when at least one viewing position whose viewing_position_picture_type[　i　] equal to 3 is present in the current SEI message.)

analyzed_view_synthesis_info_present_flag 이 1인 경우, 중간 뷰 합성(view synthesis of a intermediate view) 또는 중간 뷰 생성(interemediate view generation)의 동작에 사용될 수 있는 추가 정보 또는 추가 정보에 관한 뷰잉 포지션(또는 뷰잉 포지션에 관한 픽처)이 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있음을 의미할 수 있다. analyzed_view_synthesis_info_present_flag 이 0인 경우, 중간 뷰 합성(view synthesis of a intermediate view) 또는 중간 뷰 생성(interemediate view generation)의 동작에 사용될 수 있는 추가 정보 또는 추가 정보에 관한 뷰잉 포지션(또는 뷰잉 포지션에 관한 픽처)이 현재 viewpoint_id에 대응하는 뷰포인트의 뷰잉 포지션들의 세트 내에 포함되어 있지 않음을 의미할 수 있다 (equal to 1 indicate that viewing position that additional information that could be used in the view synthesis of a intermediate view or determine the process of the intermediate view generation is present in the set of viewing positions of a viewpoint that corresponding to the current viewpoint_id. analyzed_view_synthesis_info_present_flag equal to 0 indicate that viewing position that additional information that could be used in the view synthesis of a intermediate view or determine the process of the intermediate view generation is not present in the set of viewing positions of a viewpoint that corresponding to the current viewpoint_id.)

analyzed_view_synthesis_info_present_flag 는 viewing_position_picture_type[　i　]가 4인 적어도 하나의 뷰잉 포지션에 대한 픽처가 현재(current) SEI 메시지 내에 존재하는 경우 1로 설정될 수도 있다. (analyzed_view_synthesis_info_present_flag might be set equal to 1 when at least one viewing position whose viewing_position_picture_type[　i　] equal to 4 is present in the current SEI message.)

dynamic_interview_reference_flag 가 1인 경우, 뷰 재생성(reconstruct 또는 regenerate) 동작(또는 뷰잉 포지션의 재생성 동작)이 시간이 변화함에 따라 변경될 수 있음을 나타낸다. dynamic_interview_reference_flag 가 0인 경우, 뷰 재생성(reconstruct 또는 regenerate) 동작(또는 뷰잉 포지션의 재생성 동작)이 시간이 변화함에 따라 변경되지 않음을 나타낸다. 따라서, 레퍼런스 픽처 관계(reference picture relationship)이 전체 비디오 시퀀스 내에서 활용될 수 있음을 나타낸다.(equal to 1 specifies that the reference pictures of the reconstruct/regenerate process of a viewing position could vary when time changes. dynamic_interview_reference_flag equal to 0 indicate that the reference pictures of the reconstruct/regenerate process of a viewing position does not vary when time changes so the reference picture relationship could be utilized in whole video sequences.)

이하에서는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information)에 포함될 수 있는 시그널링 정보를 설명한다. 실시예들에 따른 센터 뷰 제너레이션 정보는 alternative_viewing_position_id, alternative_view_distance, rec_center_view_generation_method_type[ i ], viewing_position_id[ i ], center_view_generation_parameter[ i ], num_pictures_for_center_view_generation, rec_center_view_generation_method_type[ i ] 등을 포함할 수 있다. 센터 뷰 제너레이션 정보에 포함된 시그널링 정보의 전부 또는 일부의 존재 여부는 center_view_present_flag에 의해 알 수 있다.

alternative_viewing_position_id 는 대체될 수 있는 센터 레퍼런스 뷰잉 포지션(즉, 센터 뷰 포지션, 앵커 뷰 포지션 등)의 뷰잉 포지션(또는 뷰잉 포지션에 대한 픽처)를 나타내는 식별자를 의미할 수 있다. 해당 파라미터의 값은 해당 SEI 메시지 또는 관련된 SEI 메시지 내의 viewing position_id에 의해 지시될 수 있는 값일 수 있다. (specifies the viewing position that could be used alternative to the center/anchor reference viewing position. The value of alternative_viewing_position_id may be one of the viewing position indicated by viewing_position_id in this SEI message or related SEI message. )

alternative_view_distance 는 alternative_viewing_position_id 에 대응되는 대체될 수 있는 뷰잉 포지션과의 거리를 의미할 수 있다. 예를 들어, alternative_viewing_position_id는 본래의 센터 뷰 픽처에 해당하는 뷰잉 포지션과 대체될 수 있는 뷰잉 포지션과의 거리를 의미할 수 있다. alternative_viewing_position_id는 2^-16 밀리미터 단위로 표현될 수 있다. (specifies the distance of the alternative viewing position corresponding to the alternative_viewing_position_id, in the units of 2 ¹⁶ millimeters.)

rec_center_view_generation_method_type 은 센터 뷰 픽처(또는 센터 뷰)가 해당 SEI 메시지 내에 존재하지 않는 경우, 센터 뷰를 생성하는 방법을 의미할 수 있다. rec_center_view_generation_method_type이 0인 경우, viewing_position_id에 의해 제공되는 뷰잉 포지션들을 center_view_generation_parameter 에 의해 주어지는 다른 웨이트들(weights)과 함께 뷰를 합성하는 방법(view synthesis method)을 나타낸다. rec_center_view_generation_method_type이 1인 경우, viewing_position_id에 의해 제공되는 뷰잉 포지션들을 center_view_generation_parameter 에 의해 주어지는 다른 웨이트들(weights)과 함께 이미지 스티칭을 수행하는 방법(image stitching method)을 나타낸다. (specifies the method to generate the center view when center view is not present in this SEI message. rec_center_view_generation_method_type equal to 0 represent the view synthesis method that uses given viewing positions by viewing_position_id with different weights given by center_view_generation_parameter. rec_center_view_generation_method_type equal to 1 could represent image stitching method with given viewing positions by viewing_position_id with different weights given by center_view_generation_parameter.)

viewing_position_id 은 센터 뷰 포지션(즉, 센터 뷰 픽처 등)으로 사용하기 위한 뷰잉 포지션을 나타낸다. viewing_position_id 의 값은 해당 SEI 메시지 또는 관련 SEI 메시지에 의해 지시되는 뷰잉 포지션 중 하나를 의미할 수 있다. (indicates the viewing position that is used for the center view position. The value of viewing_position_id may be one of the viewing position indicated by viewing_position_id in this SEI message or related SEI message.)

center_view_generation_parameter 는 센터 뷰 제너레이션 방법을 나타내는 rec_center_view_generation_method_type의, 뷰잉 포지션에 종속하는(의존하는, dependent) 파라미터를 나타낸다. (specifies the viewing position dependent parameter that is recommended to be used in the center view generation methods indicated by rec_center_view_generation_method_type.)

rec_center_view_generation_method_type, viewing_position_id, and center_view_generation_parameter 는 추천되는 실시예들에 따른 센터 뷰 제너레이션 방법을 나타내기 위하여 사용된다. 또한, rec_center_view_generation_method_type, viewing_position_id, and center_view_generation_parameter는 인코더 프리-프로세싱부에서 수행되는 센터 뷰 픽처를 생성하기 위한 방법 및 그에 대응하는 파라미터로 나타낼 수도 있다. 이 경우, center_view_present_flag 대신 새로운 정보(시그널링 정보 등)으로 나타내어질 수도 있다. (rec_center_view_generation_method_type, viewing_position_id, and center_view_generation_parameter are used to indicate the recommended method of center view generation. Otherwise, rec_center_view_generation_method_type, viewing_position_id, and center_view_generation_parameter could be used to indicate the method and its corresponding parameters that were used to generate the center view picture in the pre-processing before encoding. In this case, a new flag to indicate the presence of this information could be defined and used instead of center_view_present_flag not present flag.)

num_pictures_for_center_view_generation 은 센터 뷰 제너레이션을 수행하는 경우 필요한 픽처들의 개수에 대한 정보를 나타낼 수 있다.

이하에서는 실시예들에 따른 하나 또는 그 이상의 뷰잉 포지션(viewing position)들에 대한 시그널링 정보를 나타낸다. 하나 또는 그 이상의 뷰잉 포지션(viewing position)들에 대한 시그널링 정보는, num_viewing_position, view_position_depth_present_flag, view_position_texture_present_flag, view_position_processing_order_idx, viewing_position_picture_type 등을 포함할 수 있다.

num_viewing_position 은 뷰포인트 또는 viewoint_id 에 의해 지시되는 센터 뷰잉 포지션(center viewing position)과 관련된 뷰잉 포지션들의 총 개수를 나타내기 위한 파라미터이다. (specifies the total number of viewing positions that are related to the viewpoint or center viewing position that is indicated by viewoint_id.)

view_position_depth_present_flag 및 view_position_texture_present_flag 이 1인 경우, 각각의 파라미터는 i 번째 뷰잉 포지션에 대한 뎁스 및 텍스처가 존재한다는 것을 나타낸다. 만약, 다른 컴포넌트가 존재한다면, (예를 들면, 각각의 픽셀 위치의 투명도를 나타내는 알파 채널) 또는 다른 레이어들이 존재한다면(예를 들면, 오버레이, 로고들(logos)), 이들은 컴포넌트에 대응하는 플래그들에 의해 지시될 수 있다. (equal to 1 specify the depth or texture is present for the i-th viewing position, respectively. If there is other component, such as alpha channel to indicate the opacity of the pixel values at each pixel position or other layers such as overlay, logos, they could be indicated by defining flags corresponding to component. )

view_position_processing_order_idx 는 복수의 뷰잉 포지션들에 대하여 수행되는 일련의 동작들의 순서를 나타낸다(specify the processing order of the multiple viewing positions). 예를 들면, 해당 파라미터의 숫자가 작을수록, 해당 뷰잉 포지션에 대한 동작의 순서가 더 빠를 수 있다(the lower the number is, the faster the processing order). 만약 두 개의 다른 뷰잉 포지션들이 동일한 view_position_processing_order_idx을 가진다면, 두 개의 다른 뷰잉 포지션 간에는 순서 상의 우선이 없을 수 있다(If two different viewing positions have same view_position_processing_order_idx, there is no preference in processing order.)

view_position_processing_order_idx의 사용에 대한 실시예를 들면, 실시예들에 따른 뷰 리제너레이션 동작 내에서의 센터 뷰잉 포지션(또는 센터 뷰 픽처에 대응하는 뷰잉 포지션) 또는 자주 (또는 가장 많이) 참조되는 뷰잉 포지션(즉, 레퍼런스 뷰 픽처에 대한 뷰잉 포지션)을 나타내는데 사용될 수 있다. 예를 들어, 레퍼런스 뷰 픽처(reference view)들은 실시예들에 따른 뷰 리제너레이션 동작 내의 다른 픽처들을 재생(restore)하기 위해 사용되므로, 레퍼런스 픽처들에 대해서는 참조되지 않은(non-referenced) 픽처들에 비해 낮은(lower) view_position_processing_order_idx 를 가질 수 있다. 그러나, 참조되지 않은 픽처들 또는 레퍼런스 뷰 픽처들 간 참조 관계(reference relationship)가 발생하는 경우에는, 실시예들에 따른 동작(뷰 리제너레이션 등)의 순서에 따라서 다른 view_position_processing_order_idx 으로 지시될 수 있다.(The example use case of the view_position_processing_order_idx is the center viewing position or mostly referenced viewing position in view regeneration process. As the reference pictures are used to restore the other pictures in the view regeneration process, the reference pictures could be assigned with lower view_position_processing_order_idx compared to the non-referenced pictures. When the reference relationship is happened between non-referenced pictures or reference pictures, they could be indicated with different view_position_processing_order_idx according to the processing order.)

viewing_position_picture_type 은 픽처 제너레이션(예를 들어 뷰 리제너레이션 등)에 대하여, i번째 뷰잉 포지션의 픽처 타입(picture type)을 나타내기 위한 정보일 수 있다. 다시 말해, 본 파라미터는 i번째 뷰잉 포지션의 픽처의 프로세싱 타입(processing type)을 의미할 수 있다. (specifies the picture type of the i-th viewing position in terms of picture generation. In other words, this may mean proceessing type of picture of i(i-th viewing position))

viewing_position_picture_type equal 이 0이면, i번째 뷰잉 포지션(또는 i번째 뷰잉 포지션에 대한 픽처)는 센터 뷰(또는 센터 뷰 픽처)임을 나타낼 수 있다. (When viewing_position_picture_type equal to 0, the i-th viewing position is a center view.)

viewing_position_picture_type equal 이 1이면, i번째 뷰잉 포지션은 뷰 리제너레이션 동작 내에서 레퍼런스 픽처(reference picture)로 사용될 수 있는 픽처임을 의미할 수 있다. (When viewing_position_picture_type equal to 1, the picture of the i-th viewing position is used as a reference picture in the view regeneration process.)

viewing_position_picture_type equal 이 2이면, i번째 뷰잉 포지션의 픽처는 뷰 리제너레이션 동작에 의해 생성될 픽처임을 의미할 수 있다. (When viewing_position_picture_type equal to 2, the picture of the i-th viewing position will be generated from the view regeneration process.)

viewing_position_picture_type equal 이 3이면, i번째 뷰잉 포지션의 픽처는 인코더 프리-프로세싱부(또는 인코딩 프리-프로세스)에 의해 프리-제너레이트된 뷰(예를 들어, 중간 뷰 생성부에 의해 생성된 중간 뷰, intermediate view)임을 의미할 수 있다.(When viewing_position_picture_type equal to 3, the picture of the i-th viewing position is pre-generated view in the encoding pre-process.)

viewing_position_picture_type equal 이 4이면, i번째 뷰잉 포지션의 픽처는 디코딩된 픽처들 내에 포함되지 않은 픽처이나, 추가적인 정보(예를 들면, 실시예들에 따른 뷰 합성 레코멘데이션 정보 등)뷰 합성 방법(동작)에 의해 합성되는 것이 권장되는 픽처임을 의미할 수 있다. 이 동작은 뷰 합성을 수행함에 있어서 시간 소비를 감소시킬 수 있다.(When viewing_position_picture_type equal to 4, the picture of the i-th viewing position might not be present in the decoded pictures but a view synthesis method is recommended with additional information. This could be used to reduce the time consumption process with regard to view synthesis.)

viewing_position_picture_type equal 이 5이면, i번째 뷰잉 포지션의 픽처는 디코딩된 픽처들 내에 포함되지 않은 픽처이나, 다른 뷰잉 포지션(에 대한 픽처 등)에서 대체 픽처(alternative picture)가 존재함을 의미할 수 있다. (When viewing_position_picture_type equal to 5, the picture of the i-th viewing position might not be present in the decoded pictures but alternative picture from other viewing position is present.)

이하에서는 실시예들에 따른 레퍼런스 뷰 정보(reference view information)에 포함될 수 있는 시그널링 정보를 설명한다. 실시예들에 따른 레퍼런스 뷰 정보는 num_views_using_this_ref_view, num_ref_views 등을 포함할 수 있다. 레퍼런스 뷰 정보는 viewing_position_picture_type [ i ] == 1에 의해 전달되는 정보일 수 있다. 여기서 viewing_position_id는 viewing positions that uses this reference view이다.

num_views_using_this_ref_view 는 실시예들에 따른 리제너레이션 동작 내에서의 레퍼런스 뷰 픽처들로써, i번째 뷰잉 포지션으로 사용될 수 있는 뷰잉 포지션에 대한 픽처들의 수를 나타낸다. (specifies the number of viewing positions that uses the picture of the i-th viewng position as the reference view in the regeneration process. The viewing positions that uses this reference view are indicated by viewing_position_id.)

num_ref_views 는 i번째 뷰잉 포지션에 대응하는 픽처의 리제너레이션을 위해 사용되는 레퍼런스 뷰들의 수를 나타낸다. 레퍼런스 뷰들은 viewing_position_id에 의해 식별될 수 있다.(specifies the number of referencec views that are used for the regeneration of the picture corresponding to the i-th viewing position. The reference viewing positions are indicated by the viewing_position_id.)

이하에서는 실시예들에 따른 뷰 리제너레이션 정보(view regeneration information)에 포함될 수 있는 시그널링 정보를 설명한다. 실시예들에 따른 뷰 리제너레이션 정보는 상술한 num_ref_views, viewing_position_id을 포함할 수 있다. 또한, 실시예들에 따른 뷰 리제너레이션 정보는 view_regeneration_method_type, num_sparse_views, picture_id 등을 포함할 수 있다. 레퍼런스 뷰 정보는 viewing_position_picture_type [ i ] == 2의해 전달되는 정보일 수 있다. 여기서 viewing_position_id는 reference viewing positions for view regeneration을 의미할 수 있다.

view_regeneration_method_type (view_regeneration_method_type[ i ][ j ]) 는 i번째 뷰잉 포지션의 픽처를 재생(restore, 또는 재생성, regenerate)하기 위한 뷰 재생성 방법의 타입을 나타낸다. (specifies the type of view regeneration method that is used to restore the picture of the i-th viewing position.)

view_regeneration_method_type 이 0이면, 뷰 합성(view synthesis)에 기반한 뷰 예측(prediction) 방법이 사용되는 것임을 의미할 수 있다. view_regeneration_method_type 이 1이면, 블록 디스페리티 프리딕션(block disparity prediction) 방법이 사용되는 것임을 의미할 수 있다. (When view_regeneration_method_type equal to 0, view synthesis based prediction method is used. When view_regeneration_method_type equal to 1, block disparity prediction method is used.)

num_sparse_views (num_sparse_views [ i ][ j ])는 i번째 뷰잉 포지션에 대응하는 픽처를 재생성하기 위해 사용되는 스파스 뷰들의 개수를 나타낸다. (specifies the number of sparse views used to regenerate the picture corresponding to the i-th viewing position.)

picture_id (picture_id [ i ][ j ])는 i번째 뷰잉 포지션에 대응하는 픽처를 재생성(reconstruct)하기 위해 사용되는 j번째 스파스 뷰를 포함하는 식별자를 나타낸다.

specifiest the identifier which contains the j-th sparse view that is used to reconstruct the picture corresponding to the i-th viewing position.

이하에서는 실시예들에 따른 프리-제너레이션 정보(pre-generation information)에 포함될 수 있는 시그널링 정보를 설명한다. 실시예들에 따른 프리-제너레이션 정보는 상술한 num_ref_views, viewing_position_id을 포함할 수 있다. 또한, 실시예들에 따른 프리-제너레이션 정보는 pregeneration_method_type, view_regeneration_method_type, picture_id, num_sparse_views 을 포함할 수 있다. 레퍼런스 뷰 정보는 viewing_position_picture_type [ i ] == 3의해 전달되는 정보일 수 있다. 여기서 viewing_position_id는 reference viewing positions for view regeneration을 의미할 수 있다.

pregeneration_method_type (pregeneration_method_type[ i ][ j ])은 i번째 뷰잉 포지션에 대응하는 픽처를 생성하기 위한 뷰 생성(view generation) 방법을 나타낸다. Pregeneration_method_type이 0이면, 레퍼런스 뷰 합성 알고리즘이 사용되는 것임을 나타낸다. Pregeneration_method_type이 1이면 뷰 생성 알고리즘 A (view generation algorithm A)가 사용되는 것임을 나타낸다. (specifies the view generation method that is used to generate the picture corresponding to the i-th viewing posotion. When pregeneration_method_type equal to 0, the reference view synthesis algorithm is used. when pregeneration_method_type equal to 1, the view generation algorithm A is used.)

view_regeneration_method_type 실시예들에 따른 뷰 리제너레이션을 수행하는 방법과 관련된 시그널링 정보를 의미할 수 있다.

이하에서는 실시예들에 따른 뷰 합성 레코멘데이션 정보(view synthesis recommendataion information)에 포함될 수 있는 시그널링 정보를 설명한다. 실시예들에 따른 뷰 합성 레코멘데이션 정보는 ref_view_synthesis_method_type, viewing_position_id를 포함할 수 있다. 또한 실시예들에 따른 뷰 합성 레코멘데이션 정보는 상술한 sparse_view_present_flag 및/또는 num_ref_views를 더 포함할 수 있다. 실시예들에 따른 뷰 합성 레코멘데이션 정보는 viewing_position_picture_type [ i ] == 4의해 전달되는 정보일 수 있다. 여기서 num_ref_views는 하나의 뷰인지 또는 멀티플(multiple) 뷰인지 여부를 나타낼 수 있다. 또한, 여기서 viewing_position_id는 reference viewing positions for view synthesis이다.

ref_view_synthesis_method_type (ref_view_synthesis_method_type[ i ][ j ])는 i번째 뷰잉 포지션에 대응하는 픽처를 생성하기 위한 추천되는 뷰 합성 방법을 나타낸다. specifies the view synthesis method that is recommended to generate the picture corresponding to the i-th viewing position. ref_view_synthesis_method가 0이면, 레퍼런스 뷰 합성 알고리즘이 사용된 것임을, ref_view_synthesis_method가 1이면, 뷰 합성 알고리즘 A(view synthesis algorithm A)가 사용되는 것임을 추천하는 것을 나타낸다. (When ref_view_synthesis_method_type equal to 0, the reference view synthesis algorithm is recommended. when ref_view_synthesis_method _type equal to 1, the view synthesis algorithm A is recommended.)

alternative_view_position_id (alternative_view_position_id[ i ][ j ])는 i번째 뷰잉 포지션의 대체 뷰잉 포지션으로 사용되도록 추천되는 뷰잉 포지션과 관련된 식별자를 나타낸다. (specifies the identifier that is recommended to be used as an alternative viewing position of the i-th viewing position.)

sparse_view_present_flag 는 실시예들에 따른 스파스 뷰(또는 스파스 뷰 픽처)가 존재하는지를 나타내는 시그널링 정보이다.

이하에서는 상술한 view_point_descriptor 및 view_point_descriptor에 포함된 시그널링 정보를 구체적으로 설명한다.

view_point_descriptor는 뷰포인트(viewpoint)의 위치, 뷰잉 포지션의 적용 범위(즉 전체 coverage에 대한 정보) 및 뷰잉 오리엔테이션에 대한 정보(즉, 전체 rotation에 대한 정보)를 나타내는 정보 또는 디스크립터를 의미한다. view_point_descriptor는 후술할 viewing_position_id, viewing_position_x, viewing_position_y, viewing_position_z, viewing_position_yaw, viewing_position_pitch, viewing_position_roll, coverage_horizontal 및/또는 coverage_vertical을 포함할 수 있다.

viewing_position_id 는 시점의 위치(viewing position), 오리엔테이션(orientation), 커버리지(coverage)에 의해 기술되는 뷰잉 포지션의 식별자를 나타낸다. 시점의 위치(viewing position), 오리엔테이션(orientation), 커버리지(coverage)는 각각 viewing_position_x, viewing_position_y, 및 viewing_position_z, viewing_orientation_yaw, viewing_orientation_pitch, 및 viewing_orientation_roll, and coverage_horizontal 및 coverage_vertical에 의해 기술될 수 있다. 해당 뷰잉 포지션을 기술하는 파라미터들은 다른 뷰잉 포지션들과 차별화하기 위하여 추가될 수 있다. (indicate the identifier of a viewing position that is described by the viewing position, orientation and coverage, specified by viewing_position_x, viewing_position_y, and viewing_position_z, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll, and coverage_horizontal and coverage_vertical, respectively. The parameters or features which describe the viewing position could be added to differentiate different viewing positions.)

viewing_position_x, viewing_position_y, 및 viewing_position_z 는 각각 2의 -16승 밀리미터(millimeters) 단위로써, 디코딩된 픽처의 뷰잉 포지션의 (x, y, z) 위치를 나타내기 위한 정보일 수 있다. viewing_position_x, viewing_position_y 및 viewing_position_z의 범위는 -32768*2^16 - 1 (i.e., -2147483647) 이상 32768　* 2^16 (i.e.,　2147483648) 이하를 포함할 수 있다. (indicate the (x,y,z) location of viewing position corresponding to the decoded picture in the units of 2 ^-16 millimeters, respectively The range of viewing_position_x, viewing_position_y and viewing_position_z may be in the range of -32768　*　2 ¹⁶　-　1 (i.e.,　-2147483647) to 32768　*　2 ¹⁶ (i.e.,　2147483648), inclusive.)

viewing_orientation_yaw, viewing_orientation_pitch, 및 viewing_orientation_roll 는 2^-16 도(degree) 단위로 요(yaw), 피치(pitch), 롤(roll) 오리엔테이션(orientation) 각도를 의미할 수 있다. viewing_orientation_yaw의 값은 -180 * 2^16 (i.e.,　-11796480)이상 180 * 2^16 (i.e.,　11796480)이하의 범위를 포함할 수 있다. viewing_orientation_pitch의 값은 -90 * 2^16 (i.e.,　-5898240)이상 90 * 2^16 (i.e.,　5898240)이하의 범위를 포함할 수 있다. viewing_orientation_roll의 값은 -180 * 2^16 (i.e.,　-11796480)이상 180 * 2^16 (i.e.,　11796480)이하의 범위를 포함할 수 있다. (indicate the yaw, pitch, and roll orientation angles in units of 2 ^-16 degrees, repectively. The value of viewing_orientation_yaw may be in the range of -180　*　2 ¹⁶ (i.e.,　-11796480) to 180　*　2 ¹⁶　　1 (i.e.,　11796479), inclusive, the value of viewing_orientation_pitch may be in the range of -90　*　2 ¹⁶ (i.e.,　-5898240) to 90　*　2 ¹⁶ (i.e.,　5898240), inclusive, and the value of viewing_orientation_roll may be in the range of -180　*　2 ¹⁶ (i.e.,　-11796480) to 180　*　2 ¹⁶　　1 (i.e.,　11796479), inclusive.)

또한, orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll은 로컬 좌표 축(local coordinate axes)에서 글로벌 좌표 축(global coordiate axes)로 변환하기 위한 디코딩된 픽처에 대응하는 헤드 위치(head position)의 단위 구(unit sphere)에 적용되는 회전을 나타낼 수 있다. (Also, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll could represent the rotation that is applied to the unit sphere of head position corresponding to the decoded picture to convert the local coordinate axes to the global coordinate axes, respectively.)

coverage_horizontal 및 coverage_vertical 는 2^-16 도(degree) 단위로써, 디코딩된 픽처에 대응하는 뷰잉 포지션의 커버리지의 수평 및 수직 범위를 나타낼 수 있다. (specifies the horizontal and vertical ranges of the coverage of the viewing position corresponding to the decoded picture, in units of 2 ^-16 degrees, respectively.)

실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션부(41000, rotation/projection, 또는 로테이션/프로젝션), 3DoF+ 프리프로세싱부(41001, 3DoF+ preprocessing, 또는 3DoF+ 프리프로세싱) 및/또는 인코딩부(41002, encoder, 또는 인코더)를 포함한다.

실시예들에 따른 로테이션/프로젝션부(41000, 또는 로테이팅/프로젝팅)는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 회전 및/또는 투사한다. 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)이 회전 및/또는 투사 될 수 있다. 로테이터/프로젝터의 출력은 실시예들에 따라 소스 뷰 픽쳐(들)이라고 지칭 될 수 있는 픽쳐(텍스처/깊이) 및/또는 회전/투영 된 픽쳐이다.

실시예들에 따른 로테이션/프로젝션부(41000)는 도 27에서 설명한 로테이션/프로젝션부(27001)를 의미할 수 있다. 또한, 로테이션/프로젝션부는 실시예들에 따라 소스 뷰 픽쳐 및/또는 회전 및/또는 투사 동작과 관련된 프로젝션 파라미터들(projection parameters)을 더 생성할 수 있다.

3DoF+ 프리프로세싱부(41001, 3DoF+ preprocessing, 또는 3DoF+ 프리프로세싱, 3DoF+ 프리프로세서)은 로테이션/프로젝션부(41000)에 의해 회전 및 투사된 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)을 수신하고, 수신한 다중 구형 비디오/이미지(텍스처/깊이)의 픽처(들) 간의 리던던시를 제거하거나 이들을 패킹(packing)할 수 있다. 예를 들어, 3DoF+ 프리프로세싱부는 실시예들에 따른 복수의 뷰잉 포지션(viewing position)들에 대한 비디오 시퀀스(video sequence)들을 수신하여 비디오 시퀀스에 포함된 복수의 뷰잉 포지션(viewing position)들에 대한 인접한 뷰 간에 리던던시(redundancy)를 제거하는 인터-뷰 리던던시 제거 단계를 수행할 수 있다. 또한, 인터-뷰 리던던시 제거 단계로부터 생성된 픽처들(텍스쳐 픽쳐, 뎁스 픽쳐, 텍스쳐 패치 및/또는 텍스쳐 레지듀얼)을 패킹하여 하나 또는 그 이상의 패킹된 픽처들을 생성할 수 있다.

3DoF+ 프리프로세싱부는 상술한 실시예들에 따른 인터-뷰 리던던시 제거부(Inter-view redundancy removal) 및/또는 패커(Packer, 또는 패킹부)를 포함할 수 있다. 또한, 3DoF+ 프리프로세싱부는 상술한 실시예들에 따른 센터 뷰 제너레이션부(center view generation), 중간 뷰 합성부(intermediate view synthesis, 또는 인터미디에이트 뷰 신테사이저), 프루닝부(Pruner, 또는 프루너)를 포함할 수 있다. 또한, 3DoF+ 프리프로세싱부는 실시예들에 따른 스파스 뷰 프루닝부(sparse view pruning, 또는 스파스 뷰 프루너), 스파스 뷰 셀릭션부(sparse view selection, 스파스 뷰 셀렉션) 및/또는 레지듀얼 디텍션(residual detector, 레지듀얼 검출부, 잔차 검출기)를 포함할 수 있다.

3DoF+ 프리프로세싱부(41001)는 프리프로세싱 메타데이터(preprocessing metadata)를 생성할 수 있다. 프리프로세싱 메타데이터는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information)를 포함할 수 있다. 또한, 프리프로세싱 메타데이터는 실시예들에 따른 패킹 메타데이터(packing metadata) 및/또는 리컨스트럭션 파라미터들(reconstruction parameters)을 포함할 수 있다. 예를 들어, 프리프로세싱 메타데이터는 도 39 및/또는 도 40에서 나타난 시그널링 정보들 또는 파라미터들의 전부 또는 일부를 포함할 수 있다.

인코딩부(41002, Encodings)는 예를 들어, 패킹된 픽처 및/또는 센터 뷰 제너레이션 정보, 레퍼런스 뷰 정보, 리제너레이션 정보, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보(뷰 신테시스 레코멘데이션 정보)를 포함하는 시그널링 정보를 인코딩한다. 실시예들에 따르면, 인코딩된 데이터는 비트 스트림 (들)의 포맷으로서 전송된다.

실시예들에 따르면, 3DoF+ 프리프로세싱부는 회전/투영, 센터 뷰 제너레이션, 인터미디에이트 뷰 합성(중간 뷰 합성), 프루닝, 희소(스파스) 뷰 프루닝, 패킹 및/또는 인코딩을 포함하여 전술 한 바와 같은 동작을 수행한다. 또한, 예를 들어 3DoF+ 프리프로세싱부는 도 27 및 도 27과 관련된 명세서의 단락에서 설명한 전처리기(인코더-프리프로세싱부)에 따른 동작을 수행할 수 있다.

도 42는 실시예들에 따른 인코더 프리-프로세싱부의 인터-뷰 리던던시 제거부를 나타낸다.

- 센터 뷰 생성부(Center view generation, 또는 센터 뷰 제너레이션부, 42001) : 수신한 픽처들(예를 들어, 소스 뷰 픽처들)로부터, 뷰잉 포지션들의 그룹에 대한 센터 뷰를 생성한다. 실시예들에 따른 센터 뷰 생성부는 센터 뷰 픽처(center view picture)를 생성할 수 있고, 및/또는 센터 뷰 제너레이션 정보(center view generation information)을 더 생성할 수 있다. 구체적으로, Center view picture는 multi-spherical video/image의 중심 위치에 대한 spherical video/image를 의미할 수 있다. 또한, 입력 영상에 포함되어 있거나, 없는 경우 실시예들에 따른 센터 뷰 제너레이션의 가상시점생성을 통해 만들어 낼 수도 있다.

- 중간 뷰 합성부(Intermediate view synthesis, 42002): 실시예들에 따른 전송 장치가, 소스 뷰들(또는 제공된 뷰들, provided views)에 따라 생성된 뷰들을 이용하는 경우, 중간 뷰가 합성될 수 있다(if the processor uses generated views on top of the provided views (or source view), intermediate view could be synthesized). 실시예들에 따르면, 중간 뷰 합성부는 프리-제너레이션 정보의 추가 정보를 포함하는 중간 뷰들을 출력할 수 있다. 나아가, 실시예들에 따른 전송 장치는 디코더 포스트-프로세싱부로 중간 뷰 합성과 관련된 정보를 전송할 수 있다.

- 프루닝부(Pruning, 42003) : 실시예들에 따른 프루닝부는, 실시예들에 따른 소스 뷰(source view), 센터 뷰(center view) 및/또는 중간 뷰(intermediate view)를 이용하여, 각각의 픽처들에 대한 리던던시를 제거할 수 있다. 실시예들에 따른 프루닝부는 스파스 뷰 픽처들(sparse view pictures), 레퍼런스 뷰 픽처들(reference view pictures)을 생성할 수 있다. 스파스 뷰 픽처는, 특정 뷰잉 포지션에 대하여, 예측할 수 없는 정보가 포함된(즉, 특이한(unique) 정보/픽셀들을 포함하는) 픽처를 의미한다. 즉, 스파스 뷰 픽처는 프루닝을 수행할 복수의 픽처들 간 공통적으로 존재하는 정보들이 제거된 픽처를 나타낼 수 있다. 레퍼런스 뷰 픽처는, 특정 뷰잉 포지션에 대하여 기본적인 정보/픽처를 제공할 수 있는 픽처를 의미할 수 있다. 여기서, 실시예들에 따른 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)이 생성될 수 있다.

실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션(42000, rotation/projection)부, 센터 뷰 생성부(42001, center view genearation module, 센터 뷰 제너레이터), 중간 뷰 합성부(42002, intermediate view synthesizer, 인터미디에이트 뷰 신테사이저), 프루닝부(42003, pruner, 프루너), 스파스 뷰 프루닝부(27005, sparse view pruner, 스파스 뷰 프루너), 패커(42004, packer) 및/또는 인코딩부(42005, encoder, 인코더)를 포함한다.

실시예들에 따른 로테이션/프로젝션부(42000) (또는 로테이팅/프로젝팅)는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 회전 및/또는 투사한다. 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)이 회전 및/또는 투사 될 수 있다. 로테이터/프로젝터의 출력은 실시예들에 따라 소스 뷰 픽쳐(들)이라고 지칭 될 수 있는 픽쳐(텍스처/깊이) 및/또는 회전/투영 된 픽쳐이다.

실시예들에 따른 센터 뷰 생성기 (42001) (또는 센터 뷰 생성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이)로부터 센터 뷰 픽처(center view picture) 및 센터 뷰(center view)에 대한 프로파일/특성에 관한 센터 뷰 제너레이션 정보(center view generation information)를 포함하는 시그널링 정보를 생성한다.

인터미디에이트 뷰 신테사이저 (42002) (또는 중간 뷰 합성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이) (소스 뷰 픽처)로부터 인터미디에이트 뷰 픽처(intermediate view picture)를 합성하고 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommandataion information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 수신기 (디코더)에서 데이터를 디코딩하는데 사용될 수 있다.

실시예들에 따른 프루너(42003) (또는 프루닝)는 픽쳐 사이의 리던던시를 제거한다. 프루닝은 뷰 간 리던던시를 제거함을 나타낸다. 이 프로세스는 인터-뷰 리던던시 리무벌로 지칭될 수 있다. 실시 예들에 따르면, 프루너의 입력은 센터 뷰 픽쳐, 소스 뷰 픽쳐 및/또는 인터미디에이트 뷰 픽쳐를 포함한다. 또한, 프루닝된 스파스 뷰(들)가 프루너에 입력될 수 있다. 프루너는 수신기(디코더)에서 데이터를 디코딩하는데 사용될 수 있는 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 뷰를 재생성하기 위해 프루닝과 관련된 정보를 포함한다. 실시예들에 따르면, 프루닝의 아웃풋은 스파스 뷰 픽처, 레퍼런스 뷰 픽처 및/또는 스파스 뷰 픽처를 포함한다. 실시예들에 따르면, 뷰는 뷰 픽쳐로 지칭될 수 있다.

패커 (42004) (또는 패킹)는 예를 들어 센터 뷰 픽쳐, 프루닝된 스파스 뷰 픽쳐(pruned sparse view picture), 레퍼런스 뷰 픽쳐(reference view picture) 및/또는 스파스 뷰 픽쳐(sparse view picture)와 같은 픽쳐를 패킹한다. 패커의 출력은 패킹된 픽쳐(packed picture)이다.

인코더 (42005) (또는 인코딩)는 예를 들어, 패킹된 픽처 및/또는 센터 뷰 제너레이션 정보, 레퍼런스 뷰 정보, 리제너레이션 정보, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보(뷰 신테시스 레코멘데이션 정보)를 포함하는 시그널링 정보를 인코딩한다. 실시예들에 따르면, 인코딩된 데이터는 비트 스트림 (들)의 포맷으로서 전송된다.

실시예들에 따르면, 전처리기(도는 인코더 프리-프로세싱부)는 회전/투영, 센터 뷰 제너레이션, 인터미디에이트 뷰 합성(중간 뷰 합성), 프루닝, 희소(스파스) 뷰 프루닝, 패킹 및/또는 인코딩을 포함하여 전술한 바와 같은 동작을 수행한다.

실시예들에 따르면, 중심 뷰 화상(픽쳐)(또는 센터 뷰 픽처)은 다중 구형 비디오/이미지의 중심 위치에 대한 구형 비디오/이미지를 의미한다. 실시예들에 따르면, 중심 뷰 화상은 입력 데이터에 포함되거나 가상 시점 생성으로부터 생성될 수 있다

실시예들에 따르면, 중간 뷰 픽쳐는 버츄얼(가상으로)하게 생성된 픽쳐를 의미한다. 중간 뷰 픽처는 입력 데이터 (예: 다중 구형 비디오 / 이미지)에 포함되지 않는다. 실시예들에 따르면, 프리 제너레이션 정보 및 / 또는 뷰 합성 추천 정보(뷰 합성 레코멘데이션 정보)는 실시예들에 따른 viewing_position_picture_type[ i ] == 3, 4 에 관련된 뷰잉 포지션 그룹 정보 SEI 메시지 구문에 포함된다.

실시예들에 따른 디코더 포스트-프로세싱부는 디코딩부(Decodings, 43001, 또는 디코더), 뷰 리컨스트럭션부(View reconstruction, 43002, 또는 뷰 리컨스트럭터, 뷰 리컨스트럭션), 뷰 합성부(View synthesis, 43003, 또는 뷰 신테시스), 렌더링/뷰포트 제너레이션부(Rendering/viewport generation, 43004, 또는 렌더링/뷰포트 제너레이터), 디스플레이부(43005, Display, 또는 디스플레이)를 포함할 수 있다.

서버(43000)는 실시예들에 따른 디코더 포스트-프로세싱부로 비트스트림을 전송할 수 있다. 서버는 실시예들에 따른 비디오 수신 장치(또는 디코더 포스트-프로세싱부)로부터 전송되는 뷰잉 포지션에 대한 정보(현재 뷰잉 포지션에 대한 정보, viewing position) 및/또는 뷰포트에 대한 정보(뷰포트 정보, viewport information)에 기초하여 (또는 대응하여) 비트스트림을 전송할 수 있다.

디코딩부(43001)는 서버(43000)로부터 비트스트림을 수신하여 패킹된 뷰(또는 픽처들) 및/또는 관련 시그널링 정보를 생성, 출력 또는 파싱할 수 있다. 디코딩부는 실시예들에 따른 디코더 포스트-프로세싱부에서 생성되는 뷰잉 포지션에 대한 정보 및/또는 뷰포트에 대한 정보에 기초하여 수신된 비트스트림을 디코딩할 수 있다. 관련된 시그널링 정보로는 예를 들어, 실시예들에 따른 리컨스트럭션 파라미터(reconstruction parameter)들, 뷰 합성 파라미터들(view synthesis parameters)이 있을 수 있다. 리컨스트럭션 파라미터들은 실시예들에 따른 수신 단의 뷰 리제너레이션(view regeneration)을 수행함에 있어 필요한 시그널링 정보를 의미할 수 있다. 예를 들어, 리컨스트럭션 파라미터는 도 39 및/또는 도 40에 따른 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다. 또한, 실시예들에 따른 리컨스트럭션 파라미터는 후술할 뷰잉 포지션 그룹 정보(viewing position group information) 의 전부 또는 일부를 포함할 수 있다. 즉, 실시예들에 따른 리컨스트럭션 파라미터는 실시예들에 따른 프리프로세싱 메타데이터(preprocessing metadata)의 전부 또는 일부를 포함할 수 있다. 프리프로세싱 메타데이터는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information)를 포함할 수 있다.

뷰 리컨스트럭션(43002, view reconstruction)은 디코딩부(43001)에 의해 생성된 패킹된 픽처(또는 패킹된 뷰)를 수신하여 재생성된 뷰(regenerated view) 픽처를 생성할 수 있다. 뷰 리컨스트럭션은 실시예들에 따른 디코딩부(또는 디코더 포스트-프로세서)에 대한 뷰잉 포지션 및/또는 뷰포트에 대한 정보에 기초하여 재생성된 뷰를 생성할 수 있다. 예를 들어, 뷰 리컨스트럭션은 수신단의 사용자에 대한 뷰잉 포지션 및/또는 뷰 포트 정보에 따라, 해당 뷰잉 포지션 및/또는 뷰 포트와 관련된 픽처들(뷰들)을 재생성할 수 있다. 이 때, 뷰 리컨스트럭션은 실시예들에 따른 디코딩부로부터 생성된 리컨스트럭션 파라미터들(reconstruction parameters)에 기초하여 재생성된 뷰를 생성할 수도 있다.

뷰 리컨스트럭션(또는 뷰 재생성부)는 복수의 뷰잉 포지션에 대하여 동시에 재생성된 뷰를 생성할 수도 있고, 제 1 뷰잉 포지션을 먼저 생성(또는 재생성)한 후, 제 1 뷰잉 포지션에 대한 재생성된 뷰에 기초하여 제 2 뷰잉 포지션을 생성할 수도 있다. 즉, 실시예들에 따른 디코더단이 복수의 뷰잉 포지션에 대한 픽처들을 생성하는 경우, 재생성되는 뷰의 뷰잉 포지션에 대한 순서를 포함한 정보를 시그널링 정보로 수신할 수 있다. 이 때, 뷰잉 포지션에 대한 순서를 포함한 정보는 리컨스트럭션 파라미터들 및/또는 뷰 신테시스 파라미터들에 포함될 수도 있다.

뷰 신테시스(43003)은 재생성된 뷰 픽처(텍스처/뎁스)에 기초하여 합성된 뷰 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 생성할 수 있다. 뷰 신테시스는 실시예들에 따른 디코딩부(또는 디코더 포스트-프로세서)에 대한 뷰잉 포지션 및/또는 뷰포트에 대한 정보에 기초하여 합성된 뷰를 생성할 수 있다. 예를 들어, 뷰 신테시스는 수신단의 사용자에 대한 뷰잉 포지션 및/또는 뷰 포트 정보에 따라, 해당 뷰잉 포지션 및/또는 뷰 포트와 관련된 픽처들(뷰들)을 합성할 수 있다. 이 때, 뷰 신테시스는 실시예들에 따른 디코딩부로부터 생성된 뷰 신테시스 파라미터들(view synthesis parameters)에 기초하여 합성된 뷰를 생성할 수도 있다.

렌더링/뷰포트 생성(43004, rendering/viewport generation)은 실시예들에 따른 합성된 뷰 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 렌더링(rendering)하고, 해당 합성된 뷰 픽처에 대한 뷰포트를 생성할 수 있다.

디스플레이(43005)는 실시예들에 따른 렌더링된 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 디스플레이할 수 있다.

센터 뷰 생성부(Cneter view generation, 또는 센터 뷰 제너레이션부, 44002) : viewing_position_picture_type이 0이거나 또는 center_view_present_flag이 0인 경우, 실시예들에 따른 센터 뷰 생성부가 동작한다. 여기서, 레퍼런스 뷰잉 포지션들(reference viewing positions) 및 각각의 뷰잉 포지션에 대한 파라미터들은 각각 viewing_position_id, center_view_generation_parameter에 의해 제공된다. 다른 실시예로, 만약 연산 복잡도(computational complexity)가 커서 실시예들에 따른 수신 장치의 부담이 있는 경우, 대체적인 뷰잉 포지션(alternative viewing position)이 이용될 수 있다. 대체적인 뷰잉 포지션은 alternative_viewing_position_id, alternative_view_distance, rec_center_view_generation_method_type에 의해 시그널링되거나 사용될 수 있다. (when the viewing_position_picture_type equal to 0 or center_view_present_flag equal to 0, the center view generation is processed. The reference viewing positions and the parameters for each viewing position is given by viewing_position_id, center_view_generation_parameter. In other case, if the computational complexity is huge burden to the receiver, alternative viewing position could be used by the information given alternative_viewing_position_id, alternative_view_distance, rec_center_view_generation_method_type.) 구체적으로, 센터 뷰 픽처(center view picture)는 multi-spherical video/image의 중심 위치에 대한 spherical video/image를 의미할 수 있다. 또한, 입력 영상에 포함되어 있거나, 없는 경우 가상시점생성을 통해 만들어 낼 수도 있다.

- 뷰 제너레이션부(View generation, 또는 뷰 리제너레이션부, 44003) : viewing_position_picture_type equal 이 1인 경우, 해당 픽처는 다른 뷰잉 포지션에 대한 레퍼런스 픽처(reference picture, 또는 참조 픽처)로 사용될 수 있다. 이 경우, 디코더는 views_position_id에 의해 주어진 해당 픽처를 사용하는 뷰잉 포지션 정보와 함께 해당 픽처를 버퍼에 저장할 수 있다. (when viewing_position_picture_type equal to 1, the picture could be used as a reference picture to the other viewing position. In this case, decoder could store the picture in the buffer with the information of viewing position that uses this picture given by viewing_position_id. )

viewing_position_picture_type equal 이 2인 경우, 실시예들에 따른 뷰 제너레이션은 해당 뷰잉 포지션의 해당 픽처를 재생할 수 있다. 실시예들에 따른 리제너레이션 과정에 필요한 레퍼런스 뷰들 및 스파스 뷰는 각각 viewing_position_id 및 picture_id 에 의해 지시될 수 있다. 수신 장치는 인코더에 의해 의도된 뷰잉 포지션을 재생(restore)하기 위하여 view_regeneration_method_type 에 의해 주어진 리제너레이션 방법을 이용할 수 있다. (when viewing_position_picture_type equal to 2, view generation may be used to restore the picture of this viewing position. The reference views and the sparse view that are needed to the regeneration process are are indicated by viewing_position_id and picture_id, respectively. The receiver may use the regeneration process method given by view_regeneration_method_type to restore the viewing position intended by the encoder.)

- 뷰 합성부(View synthesis, 뷰 신테시스, 44005) : viewing_position_picture_type equal 이 3인 경우, 해당 픽처는 프리-제너레이션된 뷰(pre-generated view)들일 수 있다. 실시예들에 따른 수신 장치는 해당 픽처를 이용하여 타겟 뷰로 이용할지 또는 재생성된 뷰들을 이용하여 새로운 픽처를 합성할지 여부를 결정할 수 있다. 이 결정에서, 수행된 방법은 pregeneration_method_type에 의해 주어진 결정 기준 중 하나일 수 있다. 만약, 실시예들에 따른 수신 장치가 해당 픽처를 사용하는 경우, viewing_position_id에 의해 제공된 레퍼런스 픽처들 및 picture_id에 의해 제공된 스파스 뷰 픽처들이 해당 리제너레이션 방법에서 사용될 수 있다. (when viewing_position_picture_type equal to 3, the picture is not a source picture but pre-generated views. Receivers could determine whether it uses this picture or synthesize a new picture with the regenerated views. In the determination, the processed method could be one of the determination criteria given by pregeneration_method_type. If the receiver uses this picture, reference pictures given by viewing_position_id and the sparse view given by picture_id are used with the regeneration method.)

viewing_position_picture_type equal 이 4인 경우, 추천된 뷰 합성 정보(recommended view synthesis information, 예를 들어 실시예들에 따른 뷰 합성 레코멘데이션 정보)가 해당 뷰잉 포지션에 대하여 제공될 수 있다. 해당 정보는, 방법, 파라미터, 레퍼런스 뷰잉 포지션 식별자(reference viewing position indicator), 스파스 뷰 존재 여부를 나타내는 플래그(sparse view present flag)를 포함할 수 있다. 이들에 대한 정보는 예를 들어, 실시예들에 따른 ref_view_systhesis_method_type, view_synthesis_parameter, viewing_position_id, sparse_view_present_flag 각각에 의해 제공될 수 있다. (when viewing_position_picture_type equal to 4, recommended view synthesis information is provided for this viewing position. They are the synthesis method, parameter, reference viewing position indicator, and sparse view present flag, given by ref_view_systhesis_method_type, view_synthesis_parameter, viewing_position_id, sparse_view_present_flag, respectively.)

viewing_position_picture_type equal 이 5인 경우, 뷰잉 포지션은 alternative_viewing_position_id 에 의해 지시되는 소스 뷰들, 재생성된 뷰(regenerated view) 또는 합성된 뷰(synthesized view)들 에 의해 대체(또는 제공, replaced)될 수 있다. (when viewing_position_picture_type equal to 5, the viewing position could be replaced by other view from the source view, regenerated view, or synthesized views, indicated by alternative_viewing_position_id)

실시예들에 따른 인코더 프리-프로세싱부에 의해 제공되는 뷰 포지션 그룹 정보(view position group information)은 콘트롤러(controller, 44004)에 의해 파싱(parsing)될 수 있다. 실시예들에 따른 콘트롤러는, 어떤 뷰잉 포지션(viewing position)을 생성할지, 어떤 구성요소(모듈)들을 제어할지, 어떤 순서로 뷰잉 포지션들과 관련된 뷰들을 생성할지, 어떤 순서로 구성요소(모듈)들을 동작하게 할지 여부를 결정함으로써 전체적인 뷰포트 생성(viewport generation) 동작을 제어한다.(The metadata, view position group information given by the encoder pre-processing, is parsed by controller in Figure 43. In this module, the whole viewport generation process is controlled by determining which viewing position may be generated, which process module may be worked, and in which order the modules may be processed.)

실시예들에 따른 인코더 프리-프로세싱부에 의해 전송되는 뷰 포지션 그룹 정보(view position group information)은 실시예들에 따른 콘트롤러(44004)에 의해 파싱될 수 있다. 콘트롤러는, 어떤 뷰잉 포지션(viewing position), 어떤 뷰 재생성 동작 및/또는 뷰 합성 동작 방법이 수행되는지, 뷰 재생성 및/또는 뷰 합성이 어떤 순서로 동작하는지를 결정함으로써, 전체 뷰포트(viewport) 생성 동작을 제어할 수 있다. 예를 들어, 사용자(viewer)가 중심 위치(center position) 또는 레퍼런스 뷰 픽처에 해당하는 위치와 정확히 동일한 위치에 해당하는 픽처(a picture position that is exactly same with the reference picture position)를 시청하기를 원하는 경우, 해당하는 픽처(센터 뷰 픽처 또는 레퍼런스 뷰 픽처)만 선택하여 언패킹을 수행할 수도 있다. (For example, if a viewing position that viewer want to watch is a center position or a picture position that is exactly same with the reference picture position, only the picture of that position could be selected from the unpacked picture.)

그러나, 만약 중심 위치(center position)가 인코더 프리-프로세싱부에 의해 생성되지 않은 경우, 실시예들에 따른 콘트롤러는 수신한 레퍼런스 뷰들로부터 센터 뷰를 생성하도록 실시예들에 따른 센터 뷰 제너레이션부를 제어할 수 있다.(However if the center position is not generated in the encoder pre-processor, the center view generation module could be processed with the reference pictures in the packed picture.)

또한, 예를 들면, 해당 뷰잉 포지션이 하나의 전체 픽처(a full picture)가 아니어서, 전체 픽처를 위한 추가 동작이 필요할 수 있다. 이 경우, 실시예들에 따른 콘트롤러는 실시예들에 따른 뷰 재생성부 및/또는 센터 뷰 제너레이션부를 제어할 수 있다. 즉, 콘트롤러는 관련 메타데이터를 이용하여 실시예들에 따른 뷰 재생성부 및/또는 센터 뷰 제너레이션부를 제어할 수 있다. 여기서 메타데이터는 인코더 프리-프로세서에 의해 시그널링될 수 있으며, 실시예들에 따른 디코더 포스트-프로세싱부는 해당 메타데이터에 기초하여 센터 뷰 픽처(center view picture), 레퍼런스 뷰 픽처(reference view pictures) 및/또는 스파스 뷰 픽처(sparse view pictures)들을 생성할 수 있다.(In other cases, if the viewing position is not a full picture so additional process is needed, the processing modules, such as view regeneration or center view generation, may be turned on and the method which is indicated in the metadata, which means intended by the encoder pre-processor, is used to generate picture of a viewing position from reference pictures and sparse pictures.)

이 과정에서, 실시예들에 따른 다른 뷰들(other views, 예를 들면 타겟 뷰들)을 생성하기 위하여 실시예들에 따른 센터 뷰 픽처 및/또는 레퍼런스 뷰 픽처를 이용할 수 있다. 따라서, 센터 뷰 제너레이션, 레퍼런스 뷰 생성하는 동작 및/또는 중간 뷰 생성하는 동작은 실시예들에 다른 뷰 리제너레이션부에 앞서 수행될 수 있다. (In this step, it is general to use the center view or reference views to generate the other views, so center view or reference view generation may be processed precedent to the view regeneration.)

만약, 실시예들에 따른 수신 장치의 뷰잉 포지션이 재생성된 또는 제공된 뷰잉 포지션과 매치(match)되지 않는 경우에는, 해당 재생성된 및/또는 제공된 뷰잉 포지션에 대한 픽처들을 합성할 수 있다. 따라서, 실시예들에 따른 뷰 재생성부의 동작은 실시예들에 따른 뷰 합성부의 동작에 선행할 수 있다. 여기서, 상술한 프로세싱의 순서는 viewing_position_picture_type 및/또는 view_position_processing_order_idx에 의해 나타내어질 수 있다. (If the viewing position is not match with the viewing positions provided or regenerated from the decoded picture, the picture may be synthesized using given viewing positions. As the view synthesis module produces a new view by using other views, view regeneration module may be precedent to the view synthesis model for all viewing positions that are needed to generate the synthesized view. The relationship or the processing order is given by viewing_position_picture_type and view_position_processing_order_idx.)

다시 말해, 도 44에서 설명하는 실시예들에 따른 비디오 수신 방법 및/또는 비디오 수신 장치를 설명한다.

디코딩(Decodings, 44000)은 수신한 비트스트림에 대하여 디코딩을 수행할 수 있다. 디코딩은 실시예들에 따른 비디오 수신 장치의 디코더에 의해 수행될 수 있다. 도 28에서 설명하는 디코딩 및/또는 디코더는 상술한 바에 따른 디코딩 및/또는 디코더를 의미할 수 있다.

언패킹(Unpacking, 44001)는 디코딩된 비트스트림을 언패킹할 수 있다. 언패킹은 디코딩된 비트스트림을 언패킹하여 하나 또는 그 이상의 레퍼런스 뷰(reference view), 하나 또는 그 이상의 스파스 뷰(sparse view)를 출력 또는 생성할 수 있다. 즉, 수신된 비트스트림이 디코딩된 경우, 디코딩된 비트스트림은 하나 또는 그 이상의 레퍼런스 뷰 및/또는 하나 또는 그 이상의 스파스 뷰를 포함할 수 있다. 도 44에서 설명하는 언패킹은 상술한 바에 따른 언패킹을 의미할 수 있다. 또한, 언패킹은 실시예들로 언패커(unpacker)에 의해 수행될 수 있다.

센터 뷰 제너레이션(Center view generation, 44002)는 상술한 언패킹에 따라 출력 또는 생성된 하나 또는 그 이상의 레퍼런스 뷰에 기초하여 센터 뷰(센터 뷰 픽처, center view)를 생성할 수 있다. 센터 뷰는 뷰잉 포지션(viewing position) 또는 뷰잉 포지션들의 그룹(group of viewing positions)를 나타내는 뷰를 의미할 수 있다. 센터 뷰 제너레이션은 하나 또는 그 이상의 레퍼런스 뷰에 기초하여 센터 뷰(센터 뷰 픽처)를 생성할 수 있고, 센터 뷰 제너레이션은 센터 뷰 제너레이션 정보(center view generation information)에 생성될 수 있다.

센터 뷰 제너레이션 정보는, 센터 뷰 제너레이션이 센터 뷰를 생성하기 위하여 사용되는 시그널링 정보를 의미할 수 있다. 센터 뷰 제너레이션 정보는 실시예로, 도 31의 alternative_viewing_position_id[ i ], alternative_view_distance, rec_center_view_generation_method_type[ i ], num_pictures_for_center_view_generation[ i ], viewing_position_id[ i ] 및/또는 center_view_generation_parameter[ i ] 를 포함하거나 그 중 일부만을 포함할 수 있다. 도 44에서 설명하는 센터 뷰(center view)는 센터 뷰 픽처(center view picture)로 호칭할 수도 있다.

센터 뷰(Center view)는, 실시예들에 따른 멀티-스피리컬(multi-spherical) 비디오 또는 이미지(또는 해당 픽처)의 중심 위치에 대한 스피리컬(spherical) 비디오 또는 이미지(video/image) 픽처를 의미할 수 있다. 실시예들에 따른 센터 뷰 제너레이션은 언패킹된 픽처들 내에 센터 뷰가 포함되어 있지 않은 경우 레퍼런스 뷰 픽처(또는 레퍼런스 뷰 픽처들)로부터 실시예들에 따른 센터 뷰를 생성할 수 있다. 즉, 센터 뷰가 입력 영상에 포함되어 있거나, 없는 경우 센터 뷰 제너레이션에 의해 가상시점생성을 통해 만들어 낼 수도 있다.

뷰 리제너레이션(View regeneration, 44003)는 언패킹된 하나 또는 그 이상의 레퍼런스 뷰들에 기초하여 재생성된 뷰(regenerated view)를 생성할 수 있다. 뷰 리제너레이션은 언패킹된 하나 또는 그 이상의 레퍼런스 뷰, 언패킹된 하나 또는 그 이상의 스파스 뷰(sparse view)들 및/또는 센터 뷰 제너레이션(44002)에 따라 생성된 센터 뷰(center view)에 기초하여 재생성된 뷰(regenerated view)를 생성할 수 있다. 또한, 재생성된 뷰(regenerated view)는 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)에 기초하여 생성될 수 있다.

레퍼런스 뷰 정보(reference view information)는 하나 또는 그 이상의 레퍼런스 뷰들 또는 그 각각에 대한 정보를 나타내는 시그널링 정보를 의미할 수 있다. 또한, 리제너레이션 정보는 뷰 리제너레이션(44003)과 관련된 시그널링 정보를 의미할 수 있다. 레퍼런스 뷰 정보는 실시예들로 도 31에서 나타난 num_views_using_this_ref_view[ i ] 및/또는 viewing_position_id[ i ] 를 포함할 수 있다. 또한, 뷰 리제너레이션 정보는 실시예들에 따른 num_ref_views[ i ], view_regeneration_method_type[ i ], num_sparse_views[ i ] 및/또는 picture_id[ i ][ j ] 을 포함할 수 있다. 즉, 레퍼런스 뷰 정보 및/또는 리제너레이션 정보는 viewing_position_picture_type[ i ] == 1, 2에 의해 전달될 수 있는 정보를 포함하거나 그 중 일부만을 포함할 수 있다.

컨트롤러(controller, 44004)는 디코딩된 비트스트림에 포함된 뷰잉 포지션 그룹 정보(viewing position groun information)를 수신하여 파싱할 수 있다. 뷰잉 포지션 그룹 정보(viewing position groun information)는, 하나 또는 그 이상의 뷰잉 포지션에 대한 시그널링 정보의 그룹을 의미할 수 있다. 뷰잉 포지션 그룹 정보는 센터 뷰 제너레이션 정보(center view generation information), 레퍼런스 뷰 정보(reference view information), 리제너레이션 정보(regeneration information), 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)를 포함할 수 있다. 컨트롤러는 렌더링/뷰포트 제너레이션에 의해 생성된 실시예들에 따른 수신 장치에 관한 정보(예를 들어, 뷰포트 정보 및/또는 뷰잉 포지션에 대한 정보)를 수신하고 이에 기초하여 파싱할 수 있다.

컨트롤러(44004)는 실시예들로, 센터 뷰 제너레이션 정보(center view generation information)를 센터 뷰 제너레이션(44002)로 전달할 수 있다. 컨트롤러(44004)는 실시예들로, 레퍼런스 뷰 정보 및/또는 리제너레이션 정보를 뷰 리제너레이션(44003)으로 전달할 수 있다. 컨트롤러(44004)는 실시예들로, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보를 뷰 신테시스(44005)로 전달할 수 있다.

뷰 신테시스(44005)는, 뷰 리제너레이션에 의해 재생성된 뷰(regenerated view)에 기초하여 뷰 합성(view synthesis)를 수행할 수 있다. 나아가, 뷰 신테시스는 센터 뷰 제너레이션에 의해 생성된 센터 뷰 및/또는 언패킹된 하나 또는 그 이상의 레퍼런스 뷰들에 기초하여 뷰 합성(또는 뷰 신테시스)을 수행할 수 있다. 뷰 신테시스는 실시예들에 따른 뷰 합성(View Synthesis)를 의미할 수 있다. 또한, 뷰 신테시스는 시그널링 정보인 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)에 기초하여 뷰 합성을 수행할 수 있다.

렌더링/뷰포트 제너레이션(rendering/viewport generation, 44006)은 뷰 신테시스(44005)에 의해 합성된 뷰를 뷰포트(viewport)를 생성하거나 렌더링할 수 있다.

실시예들에 따라 디코딩(44000), 언패킹(44001), 센터 뷰 제너레이션(44002), 뷰 리제너레이션(44003), 뷰 신테시스(44005) 및/또는 렌더링/뷰포트 제너레이션(44006) 각각은 실시예들에 따라 비디오 전송 장치가 수행할 수 있고, 이들 각각은 각각 디코딩부(또는 디코더), 언패킹부(또는 언패커), 센터 뷰 제너레이터(또는 센터 뷰 제너레이션부), 뷰 리제너레이션부(또는 뷰 리제너레이터), 뷰 신테사이저(또는 뷰 합성부) 및/또는 렌더링/뷰포트 제너레이터(또는 렌더링/뷰포트 생성부)에 의해 수행될 수 있다. 실시예들에 따른 컨트롤러(44004)는 실시예들에 따라 비디오 전송 장치가 수행할 수도 있다.

수신기는 헤드 모션 시차 및/또는 양안 시차가 제공되는 비디오 또는 다른 시점을 생성 할 수 있으며, 수신기는 변화하는 위치로 인터렉티브(interactive)한 비디오를 생성 할 수 있다. (Receivers could generate a video with head motion parallax and/or binocular disparity, or different viewpoints, which receivers could generate interactive video with changing locations.)

따라서, 실시예들에 따른 송수신 장치는 3DoF+ 비디오를 전송하기 위한 대역폭과 저장 장치의 저장공간을 줄일 수 있고, 헤드 모션 시차 및/또는 양안 시차가 제공되는 높은 품질의 3DoF+ 비디오를 보장할 수 있다. (Therefore, by saving bandwidth to deliver the 3DoF+ video or the storage space, high quality of 3DoF+ video which could provide head motion parallax could be achieved.) 즉, 이러한 구성으로 인해, 실시예들에 따른 수신 장치는 가상 현실 환경 속에서 사용자들의 행동에 따라 다른 시청각 경험을 제공할 수 있다. (Due to this configuration, receiver can provide different viewing experience with viewer’s action in the VR environment.)

실시예들에 따른 센터 뷰 제너레이션(44002)으로 인하여, 실시예들에 따른 수신 장치는 레퍼런스 뷰 픽쳐들 및/또는 센터 뷰 제너레이션 정보로부터 센터 뷰 픽쳐를 효율적으로 생성 또는 추정할 수 있다.

또한 실시예들에 따른 뷰 리제너레이션(44003)으로 인하여, 실시예들에 따른 수신 장치는 레퍼런스 뷰(레퍼런스 뷰 픽처), 스파스 뷰(스파스 뷰 픽처), 센터 뷰(센터 뷰 픽처), 레퍼런스 뷰 정보(reference view information) 및/또는 뷰 리제너레이션 정보(view regeneration informatin)를 포함하는 시그널링 정보에 기초하여 사용자가 원하는 뷰잉 포지션에 대한 재생성된 뷰(regenerated view)를 효율적으로 생성할 수 있다.

또한 실시예들에 따른 뷰 신테시스(44005)는 실시예들에 따른 센터 뷰 제너레이션에 의해 생성된 센터 뷰(center view), 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommandation information)에 기초하여 사용자가 원하는 뷰잉 포지션에 대한 정확한 뷰를 효율적으로 생성할 수 있다.

상술한 동작은 실시예들에 따른 시그널링 정보에 기반하여 3DoF+ 비디오 데이터의 전송 효율을 증가시키고, 디코딩 성능을 향상시킬 수 있는 효과를 제공한다.

도 45는 실시예들에 따른 디코더단의 동작 흐름을 나타낸다.

도 45는 실시예들에 따른 수신 장치의 디코더 포스트-프로세싱의 동작을 나타내며, 구체적으로 example of relationship between viewing positions due to the processing orders를 나타낸다.

레퍼런스 뷰들(reference views, 4500a)는 실시예들에 따른 언패킹된 레퍼런스 뷰 픽처들을 의미할 수 있다. 레퍼런스 뷰 픽처(reference view picture)들은, 하나 또는 그 이상의 소스 뷰 픽처(source view picture)에 대하여(또는 해당 뷰잉 포지션의 일부 또는 전부에 대하여) 기본 정보를 제공할 수 있는 픽처들을 의미할 수 있다. 레퍼런스 뷰는 현재 시점을 추정(또는 생성)하기 위해 사용되는 주변 시점의 영상이다. 레퍼런스 뷰(reference view)는 소스 뷰 픽처 또는 소스 뷰 이미지(source view picture/image)를 사용하거나, 가상시점합성으로 생성된 픽처 또는 이미지(picture/image)를 사용할 수도 있다. 즉, 실시예들에 따른 수신 장치에 따른 레퍼런스 뷰(reference view)는 소스 뷰 픽처(source view picture)일 수도 있고, 실시예들에 따른 인터미디에이트 뷰 픽처(intermediate view picture)일 수도 있다.

실시예들에 따른 레퍼런스 뷰(reference view)는 복수 개가 있을 수 있다. 예를 들어, 레퍼런스 뷰 r0 내지 레퍼런스 뷰 rN를 포함하는 복수 개의 레퍼런스 뷰들이 있을 수 있다. 즉 레퍼런스 뷰는 복수의 뷰잉 포지션 또는 복수의 주변 시점에 대한 픽처를 의미하고, 레퍼런스 뷰는 r0 내지 rN으로 나타낼 수 있다.

센터 뷰 제너레이션(4500)은 언패킹된 레퍼런스 뷰 픽처들의 전부 또는 일부에 기초하여 센터 뷰 픽처(center view, 4500b)를 생성할 수 있다. 센터 뷰 제너레이션은 도 28에서 설명한 실시예들에 따른 센터 뷰 제너레이션(2801b)를 의미할 수 있다.

센터 뷰(center view, 4500b, 4501a, 4502b)는 실시예들에 따라 센터 뷰 픽처(center view picture)를 의미할 수 있다. 센터 뷰 픽처는 도 42 및/또는 도 44에서 설명한 센터 뷰 픽처를 의미할 수 있다. 즉, 센터 뷰 픽처는, 실시예들들에 따른 멀티-스피리컬(multi-spherical) 비디오 또는 이미지(또는 해당 픽처)의 중심 위치에 대한 스피리컬(spherical) 비디오 또는 이미지(video/image) 픽처를 의미할 수 있다. 실시예들에 따른 센터 뷰 제너레이션은 언패킹된 픽처들 내에 센터 뷰가 포함되어 있지 않은 경우 레퍼런스 뷰 픽처(또는 레퍼런스 뷰 픽처들)로부터 실시예들에 따른 센터 뷰를 생성할 수 있다. 즉, 센터 뷰가 입력 영상에 포함되어 있거나, 없는 경우 센터 뷰 제너레이션에 의해 가상시점생성을 통해 만들어 낼 수도 있다.

실시예들에 따른 센터 뷰 제너레이션(4500)는 주변 시점에 대한 픽쳐들, 예를 들어 레퍼런스 뷰들로부터 중앙 시점에 대한 픽처인 센터 뷰를 생성한다.

여기서, 특정 픽처가 센터 뷰 픽처인지는 관련 시그널링 정보에 의해 알 수 있다. 실시예들로, 도 31에서 후술할 viewing_position_picture_type[ i ] 파라미터가 있을 수 있다. viewing_position_picture_type[ i ]는 i 번째 인덱스를 가지는 픽처의 타입 정보를 의미할 수 있다. 따라서, i 번째 인덱스를 가지는 특정 픽처가 센터 뷰라면, viewing_position_picture_type[ i ]는 0으로 나타내어질 수도 있다.

실시예들로, 실시예들에 따른 수신 장치의 디코더에서 언패킹된 픽처들 중 viewing_position_picture_type이 0인 픽처가 존재하는 경우(즉, 언패킹된 픽처들 중 센터 뷰 픽처가 존재하는 경우), 실시예들에 따른 디코더단(수신 장치)의 센터 뷰 제너레이션은 수행되지 않을 수도 있다. 그러나, 언패킹된 픽처들 중 viewing_position_picture_type이 0인 픽처가 존재하지 않는 경우(즉, 언패킹된 픽처들 중 센터 뷰 픽처가 하지 않는 경우) 실시예들에 따른 센터 뷰 제너레이션을 수행할 수 있다.

또한, 특정 픽처에 대한 프로세싱 순서와 관련된 시그널링 정보가 개시될 수 있다. 실시예들로, 도 31에서 후술할 view_position_processing_order_idx[ i ] 파라미터가 있을 수 있다. 여기서, 센터 뷰에 해당하는 픽처의 view_position_processing_order_idx 값은 0일 수 있다. 즉, 센터 뷰(center view)는 레퍼런스 뷰들로부터 우선적으로 처리되어야 하는 뷰를 의미할 수 있다.

스파스 뷰(sparse view, 4501b)는 실시예들에 따른 스파스 뷰 픽처(sparse view picture)를 의미할 수 있다. 스파스 뷰 픽처(sparse view picture)는 하나 또는 그 이상의 소스 뷰 픽처(source view picture)에 대하여(또는 해당 뷰잉 포지션의 일부 또는 전부에 대하여) 특이한 정보(또는 픽셀들)을 포함하는 픽처를 의미할 수 있다. 즉, 스파스 뷰 픽처(sparse view picture)는 실시예들에 따른 프루닝(pruning) 또는 소스 뷰 프루닝(source view pruning)을 통해 현재 시점을 주변 시점으로부터 추정했을 때 추정 불가한 정보를 담은 영상(또는 픽처)을 나타낸다. 이 때, 현재 시점의 영상에서 주변부와 중복되는 정보 (추정 가능한 정보)는 회색/검은색(또는 단색) 영역으로 나타낼 수 있으며, 이 때 추정이 불가한 정보가 스파스 뷰 픽처(sparse view picture)에 포함될 수 있다.

뷰 리제너레이션(view regenration, 4501)은 실시예들에 따른 센터 뷰(4501a) 및/또는 스파스 뷰(4501b)에 기초하여 재생성된 뷰(4501c)를 생성할 수 있다. 뷰 리제너레이션은(4501)은 도 44에서 설명한 실시예들에 따른 뷰 리제너레이션을 의미할 수 있다.

실시예들에 따른 뷰 리제너레이션(4500)는 센터 뷰 및/또는 스파스 뷰를 사용하여 효율적으로 뷰를 재생성(추정, 프레딕션)할 수 있다. 실시예들에 따른 센터 뷰는 수신된 레퍼런스 뷰들로부터 생성된다. 실시예들에 따른 수신된 스파스 뷰는 인코더 또는 송신기에서 뷰들 간 리던던시가 제거된(프루닝된) 픽쳐이므로, 추정이 불가능한 데이터를 포함한다. 실시예들에 따른 수신기는 생성한 센터 뷰(센터 뷰 픽처) 및/또는 스파스 뷰(스파스 뷰 픽처)만을 이용하여 뷰를 효율적으로 추정할 수 있다.

재생성된 뷰(regenerated view, 4501c, 4502c)는 센터 뷰(4501a) 및/또는 스파스 뷰(4501b)에 기초하여 생성된 픽처를 의미할 수 있다. 여기서, 특정 픽처가 재생성된 뷰 또는 그에 대한 픽처인지를 나타내는 시그널링 정보가 개시될 수 있다. 실시예들로, 도 31에서 후술할 viewing_position_picture_type[ i ] 파라미터가 있을 수 있다. viewing_position_picture_type[ i ]는 i 번째 인덱스를 가지는 픽처의 타입 정보를 의미할 수 있다. 따라서, i 번째 인덱스를 가지는 특정 픽처가 재생성된 뷰라면, viewing_position_picture_type[ i ]는 2로 나타내어질 수도 있다. 또한, 재생성된 뷰에 해당하는 픽처의 view_position_processing_order_idx 값은 1일 수 있다. 즉, 뷰 리제너레이션(4501)은 상술한 센터 뷰 제너레이션 이후에 수행되어야 하는 동작을 의미할 수 있다.

여기서 v0, v1은 view 0, view 1을 의미할 수 있고, v0 및 v1은 상호간에 인접한 시점일 수 있다. 도 45에서 스파스 뷰(4501b)는 v1 위치에서의 실시예들에 따른 스파스 뷰를 의미할 수 있고, 센터 뷰(4501b)를 통해 v1을 추정한 후 전달된 스파스 뷰(v1 위치)를 이용하여 최종적인 v1 위치에서의 뷰(view)를 생성하는 뷰 리제너레이션 과정을 나타낸낸다. 또한 도 45에서 시점 합성 (view synthesis) 을 할 때 중심(즉 센터 뷰에 대한 위치), v0, v1의 세 개 위치를 이용하는 예시로, center view, reference view (v0 위치에 대해 전달된 영상을 사용), regenerated view (v1 위치에 대해 sparse view를 통해 재구성된 영상을 사용)를 사용하여 임의의 시점을 생성할 수 있다.

다른 말로 하면, v0은 제 1 시점을 의미하고, v1은 제 2 시점을 의미할 수 있다. 즉, 뷰 리제너레이션은 실시예들에 따른 센터 뷰(4501a)를 이용하여 v0에 해당하는 제 1 시점에 대한 재생성된 뷰를 생성할 수 있다. 재생성된 뷰를 생성하기 위해 센터 뷰와 v0에 해당하는 제 1 시점에 대한 스파스 뷰를 이용할 수 있다. 구체적으로, 뷰 리제너레이션은 센터 뷰를 통해 v1을 추정한 후 전달된 스파스 뷰(v1 위치)를 이용하여 최종적인 v1 위치에서의 뷰(픽처)를 생성할 수 있다.

뷰 합성(뷰 신테시스)에 사용될 하나 또는 그 이상의 레퍼런스 뷰(4502b)는 상술한 레퍼런스 뷰들(4500a)의 전부 또는 일부의 픽처들을 의미할 수 있다.

뷰 신테시스(view synthesis, 4502)는 상술한 센터 뷰(4502a), 뷰 합성에 사용될 하나 또는 그 이상의 레퍼런스 뷰(4502b) 및/또는 실시예들에 따른 재생성된 뷰(4502c)에 기초하여 합성된 뷰(4502c)를 생성할 수 있다. 합성된 뷰는 임의의 뷰잉 포지션(arbitrary viewing position)을 의미할 수 있다. 임의의 뷰잉 포지션(arbitrary viewing position)은 타겟 뷰잉 포지션(target viewing position)으로 호칭할 수 있다. 뷰 신테시스는 실시예들로 도 44에서 설명한 뷰 신테시스(view synthesis, 44005)를 의미할 수 있다.

임의의 뷰잉 포지션(arbitrary viewing position, 4501c, 4502c)는 상술한 센터 뷰(4502a), 뷰 합성에 사용될 하나 또는 그 이상의 레퍼런스 뷰(4502b) 및/또는 실시예들에 따른 재생성된 뷰(4502c)에 기초하여 합성된 임의의 뷰잉 포지션에 대한 픽처 즉, 실시예들에 따른 합성된 뷰를 의미할 수 있다. 여기서, 특정 픽처가 합성된 뷰(4502c) 또는 그에 대한 픽처인지를 나타내는 시그널링 정보가 개시될 수 있다. 실시예들로, 도 31에서 후술할 viewing_position_picture_type[ i ] 파라미터가 있을 수 있다. viewing_position_picture_type[ i ]는 i 번째 인덱스를 가지는 픽처의 타입 정보를 의미할 수 있다. 따라서, i 번째 인덱스를 가지는 특정 픽처가 합성된 뷰라면, viewing_position_picture_type[ i ]는 4로 나타내어질 수도 있다. 또한, 합성된 뷰에 해당하는 픽처의 view_position_processing_order_idx 값은 2일 수 있다. 즉, 뷰 신테시스(4502)은 상술한 뷰 리제너레이션 이후에 수행되어야 하는 동작을 의미할 수 있다.

구체적으로 말하면, 뷰 신테시스(4502)는 임의의 시점에 대한 픽처를 생성하기 위하여 센터 뷰(4502a), 해당 임의의 시점과 관련된 시점에서의 레퍼런스 뷰(예를 들어, 제 1 시점인 v0에 대한 레퍼런스 뷰) 및/또는 해당 임의의 시점과 관련된 시점에서의 재생성된 뷰(예를 들어, 도 45에서는 제 2 시점에 대한 재생성된 뷰)를 이용할 수 있다. 즉, 뷰 신테시스(view synthesis)를 수행할 때 센터 뷰 픽처(중심에 대한 픽처), v0 시점과 관련된 픽처(예를 들어 v0에 대한 레퍼런스 뷰), v1 시점과 관련된 픽처(예를 들어 v1에 대한 재생성된 뷰) 세 개 위치를 이용할 수 있다. 즉, 도 45에서 도시된 바와 같이 센터 뷰(center view), 레퍼런스 뷰 (실시예로, v0 위치에 대해 전달된 영상을 사용), 재생성된 뷰(실시예로, v1 위치에 대해 스파스 뷰를 통해 재구성된 재생성된 픽처를 사용)를 사용하여 임의의 시점을 생성할 수 있다.

실시예들에 따른 디코더는 좀 더 높은 정확성을 제공하기 위해서, 뷰 신테시스를 수행할 수 있다. 예를 들어, 복수의 뷰잉 포지션에 대한 레퍼런스 뷰들로부터 생성된 센터 뷰, 센터 뷰 및/또는 제 1 뷰잉 포지션(또는 시점)에 대한 스파스 뷰(e.g, v1)로부터 추정된 뷰(e.g., v1) 그리고 인접한 제 2 시점에 대한 레퍼런스 뷰(e.g., v0)를 사용하여 최종적인 뷰잉 포지션에 대한 뷰를 합성할 수 있다.

실시예들에 따른 센터 뷰 제너레이션(4500)으로 인하여, 실시예들에 따른 수신 장치는 레퍼런스 뷰 픽쳐들 및/또는 센터 뷰 제너레이션 정보로부터 센터 뷰 픽쳐를 효율적으로 생성 또는 추정할 수 있다.

또한 실시예들에 따른 뷰 리제너레이션(4501)으로 인하여, 실시예들에 따른 수신 장치는 레퍼런스 뷰(레퍼런스 뷰 픽처), 스파스 뷰(스파스 뷰 픽처), 센터 뷰(센터 뷰 픽처), 레퍼런스 뷰 정보(reference view information) 및/또는 뷰 리제너레이션 정보(view regeneration informatin)를 포함하는 시그널링 정보에 기초하여 사용자가 원하는 뷰잉 포지션에 대한 재생성된 뷰(regenerated view)를 효율적으로 생성할 수 있다.

또한 실시예들에 따른 뷰 신테시스(4502)는 실시예들에 따른 센터 뷰 제너레이션에 의해 생성된 센터 뷰(center view), 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommandation information)에 기초하여 사용자가 원하는 뷰잉 포지션에 대한 정확한 뷰를 효율적으로 생성할 수 있다.

또한, 상술한 실시예들로 인하여 실시예들에 따른 송신기는 모든 영상을 전송하지 않고, 실시예들에 따른 프루닝된(즉, 리던던시가 제거된), 수신기에서 추정에 필요한 영상만 전송함으로써 데이터 전소으이 효율을 증가시키고, 디코딩 성능을 향상시키는 효과를 제공할 수 있다.

또한, 상술한 동작은 실시예들에 따른 시그널링 정보에 기반하여 3DoF+ 비디오 데이터의 전송 효율을 증가시키고, 디코딩 성능을 향상시킬 수 있는 효과를 제공한다.

구체적으로 프루닝 스킴(pruning scheme)은 인코더 프리-프로세싱부의 실시예들에 따른 인터-뷰 리던던시 제거부 또는 프루닝부에서 수행하는 동작을 의미할 수 있다.

실시예들에 따른 뷰(view, 또는 픽처) 간의 정보 중복도를 줄이기 위한 방법으로써 사용하는 실시예들에 따른 프루닝(pruning)의 두 가지 케이스를 나타낸 것이다.

1) 하나의 reference view (c0)를 이용해 source view (v1)를 추정하고, 추정 불가한 정보 혹은 부가 정보에 해당하는 것을 sparse view (s1)로 전달하는 경우

2) 두개 이상의 reference view (c0, r1)를 이용해 source view (v2)를 추정하고, 추정 에러 혹은 부가 정보에 해당하는 것을 sparse view (s2)로 전달하는 경우

이 때, 송신되는 정보 (c0, s1, r1, s2)은 붉은색 테두리로 표시된 영상 정보는 송신한다는 것을 나타낸다.

실시예들에 따르면, 제 1 프루닝 (46000) (또는 프루너)은 커먼 레퍼런스 뷰 (common reference view, c0) 및 소스 뷰 (v1)에 기초하여 스파스 뷰, 예를 들어 s1 또는 제 1 스파스 뷰를 생성한다. 실시예들에 따르면, 스파스 뷰 (s1)는 커먼 레퍼런스 뷰 (c0)로부터 소스 뷰 (v1) 및/또는 소스 뷰 (v1)로부터 중심 뷰 (c0)를 감산함으로써 생성된다. 희소 뷰 (s1)는 예측 불가능한 데이터를 포함하는 픽쳐이며, 희소 뷰 (s1)의 회색 또는 검은 색 표시 영역은 커먼 레퍼런스 뷰 (c0)와 소스 뷰 (s1) 사이에 중복된 데이터 또는 리던던시이다. 희소 뷰 (s1)를 생성함으로써, 데이터를 인코딩 또는 전송하는 성능 및 효율이 증가될 수 있다.

제 2 프루닝 (46001) (또는 프루너)은 커먼 레퍼런스 뷰 (c0), 참조 뷰 (r1) 및/또는 소스 뷰 (v2)를 기반으로 스파스 뷰 (s2)를 생성한다. 예를 들어, 중앙 뷰 (c0)는 참조 뷰 (r1)에 추가되고 추가된 픽쳐는 소스 뷰 (v2)와 함께 차감된다.

패킹/인코딩 (46002) (또는 패커 / 인코더)은 스파스 뷰 (s1) 및 / 또는 스파스 뷰 (s2)를 패킹/인코딩한다.

예를 들어, 복수의 뷰잉 포지션들 중 하나인 스파스 뷰 (s2) (s2에 대한 뷰 포인트)는 중심 뷰 (c0), r1에 대한 뷰포인트에 대한 참조 뷰 (r1) 및/또는 스파스 뷰(v2)를 프루닝함으로써 생성될 수 있다. 실시예들에 따르면, 프루닝은 커먼 레퍼런스 뷰 (common reference view, c0) 및 참조 뷰 (r1)를 더하고 v2의 시점에 대한 소스 뷰 (v2)를 뺀다.

실시 예에 따르면, 용어 c0은 커먼 레퍼런스 시점/시점 위치 픽쳐이고, 용어 v1은 제 1 시점/ 시점 위치 소스 뷰 픽쳐이며, 용어 s1은 제 1 시점/시점 위치 희소 뷰 픽쳐이며, 용어 r1은 제 1 시점/시점 위치 참조 시점 픽쳐이고, 용어 v2는 제 2 시점/시점 위치 소스 시점 픽쳐이며, s2 항은 제 2 시점/시점 위치 희소 시점 픽쳐 및/또는 이와 유사한 방식으로 해석 될 수 있다. 실시예에 따르면, 커먼 레퍼런스 뷰는 중심 뷰(센터 뷰)를 의미할 수도 있다.

실시예들에 따른 인터-뷰 리던던시 제거부는 도 46에서 설명하는 실시예들에 따른 제 1 프루닝만을 수행할 수도 있고, 실시예들에 따른 제 2 프루닝만을 수행할 수도 있고, 제 1 프루닝 및 제 2 프루닝을 동시에 수행할 수도 있다. 또는, 복수 개의 소스 뷰들 중 일부에 대해서만 제 1 프루닝을 및/또는 나머지 일부에 대해서만 제 2 프루닝을 수행할 수도 있다. 여기서, 제 1 뷰잉 포지션과 제 2 뷰잉 포지션은 서로 다른 뷰잉 포지션을 의미한다.

본 도면은 실시예들에 따른 프루닝(pruning)을 이용해 정보 중복도가 제거된 정보가 수신된 경우 원래의 view 정보를 복원하는 view regeneration 과정을 나타낸 것이다.

첫째, 하나의 레퍼런스 뷰(reference view) (c0) 와 부가 정보 스파스 뷰(sparse view) (s1)가 전달된 경우, c0를 이용하여 타겟 뷰(target view)를 추정하고 (이 때 송신단에서 사용한 추정 방법을 이용) s1을 이용해 최종 target view를 복원한다. 이 때, 필요한 정보는 target view 의 위치/방향/회전 등의 정보, reference view의 위치/방향/회전 등의 정보, reference view로부터 target view 추정 방법, sparse view를 이용한 최종 regenerated view 생성 방법일 수 있다.

둘째, 두 개 이상의 reference view (c0, r1)와 부가 정보 sparse view (s2)가 전달된 경우, c0과 r1를 이용하여 target view를 추정하고 s2을 이용해 최종 target view를 복원한다. 이 때 필요한 정보는 target view 의 위치/방향/회전 등의 정보, reference view 각각의 위치/방향/회전 등의 정보, 복수의 reference view로부터 target view 추정 방법, sparse view를 이용한 최종 regenerated view 생성 방법일 수 있다.

이 때, view 2 를 복원하는 과정에서 전달된 reference view 가 아니라 수신단에서 view regeneration 을 통해 복원된 정보를 사용하도록 할 수 있으며 (위의 예시에서는 regenerated view v1을 r1 대신 사용하는 것을 점선 화살표로 나타내었다), 이 때에는 reference view r1를 보내지 않고 복원된 v1을 reference view로 사용해야함을 추가 정보로 전달할 수 있다.

다시 말하면, 실시예들에 따른 뷰 리제너레이션은 제 1 뷰 리제너레이션(view regeneration) 및 제 2 뷰 리제너레이션(47001)을 수행할 수 있다. 실시예들에 따른 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

제 1 뷰 리제너레이션(47000)은, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(common reference view picture, c0) 및 실시예들에 따른 스파스 뷰 픽처(sparse view picture)를 이용하여 제 1 재생성된 뷰(regenerated view, v2)를 생성할 수 있다. 제 1 재생성된 뷰(v1)는, 제 1 뷰잉 포지션(viewing position)에 대한 재생성된 뷰를 의미할 수 있다. 여기서, 제 1 재생성된 뷰(v1)를 생산하기 위하여 사용되는 상술한 스파스 뷰 픽처는 제 1 스파스 뷰 픽처(s1)일 수 있다. 제 1 스파스 뷰 픽처(s1)는 상술한 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미할 수 있다. 커먼 레퍼런스 뷰는 예를 들어 센터 뷰 픽처(또는 센터 뷰, c0)일 수 있다. 여기서 실시예들에 따른 커먼 레퍼런스 뷰는 센터 뷰 제너레이션(또는 센터 뷰 제너레이터)으로부터 생성된 센터 뷰 픽처를 의미할 수도 있고, 실시예들에 따른 인코더단으로부터 전송된 비트스트림에 포함된 센터 뷰 픽처를 의미할 수도 있다.

즉, 실시예들에 따른 뷰 재생성부는 수신한 스파스 뷰 픽처들에 포함된 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰 픽처(s1)와, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(또는 센터 뷰 픽처, c0)를 이용하여 제 1 재생성된 뷰(v1)를 생성할 수 있다.

제 1 뷰 리제너레이션부가 제 1 재생성된 뷰(v1)를 생성하기 위하여, 제 1 뷰잉 포지션에 대한 정보를 이용할 수 있다. 예를 들어, 제 1 뷰 리제너레이션부는 제 1 재생성된 뷰(또는 제 1 타겟 뷰, v1)의 의 위치/방향/회전 등의 정보를 이용하여 제 1 재생성된 뷰(v1)를 생성할 수 있다. 또한, 제 1 뷰 리제너레이션부는 레퍼런스 뷰(reference view)들의 위치/방향/회전 등의 정보, 레퍼런스 뷰들(reference view)로부터 제 1 타겟 뷰(target view)를 추정하는 방법과 관련된 정보, 스파스 뷰(sparse view)들을 이용한 최종 재생성된 뷰들(regenerated view)에 대한 생성 방법과 관련된 정보 등을 이용할 수 있다.

제 2 뷰 리제너레이션(47001)은, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(common reference view picture, c0) 및 실시예들에 따른 스파스 뷰 픽처(sparse view picture)를 이용하여 제 2 재생성된 뷰(regenerated view, v2)를 생성할 수 있다. 제 2 재생성된 뷰(v2)는, 제 1 뷰잉 포지션(viewing position)에 대한 재생성된 뷰를 의미할 수 있다. 여기서, 제 2 재생성된 뷰(v2)를 생산하기 위하여 사용되는 상술한 스파스 뷰 픽처는 제 2 스파스 뷰 픽처(s2)일 수 있다. 여기서, 제 1 뷰잉 포지션과 제 2 뷰잉 포지션은 서로 다른 뷰잉 포지션을 의미한다.

제 2 뷰 리제너레이션부가 제 2 재생성된 뷰(v2)를 생성하기 위하여, 제 2 뷰잉 포지션에 대한 정보를 이용할 수 있다. 예를 들어, 제 2 뷰 리제너레이션부는 제 2 재생성된 뷰(또는 제 1 타겟 뷰)의 의 위치/방향/회전 등의 정보를 이용하여 제 2 재생성된 뷰(v2)를 생성할 수 있다. 또한, 제 2 뷰 리제너레이션부는 레퍼런스 뷰(reference view)들의 위치/방향/회전 등의 정보, 레퍼런스 뷰들(reference view)로부터 제 2 타겟 뷰(target view, v2)를 추정하는 방법과 관련된 정보, 스파스 뷰(sparse view)들을 이용한 최종 재생성된 뷰들(regenerated view)에 대한 생성 방법과 관련된 정보 등을 이용할 수 있다.

실시예들에 따르면, 실시예들에 따른 디코더 포스트-프로세싱부는 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션이 사용되는지 여부와 관련된 시그널링 정보를 수신할 수 있다. 즉, 실시예들에 다른 제 2 재생성된 뷰를 재생성하기 위하여, 제 1 재생성된 뷰를 이용할 수 있음을 나타내는 정보를 시그널링할 수 있다. 이러한 시그널링 정보의 예시로는, 도 40에 따른 view_position_processing_order_idx일 수 있다.

이러한 구성으로 인해, 실시예들에 따른 비디오 전송 장치는, 전송할 레퍼런스 뷰 픽처, 스파스 뷰 픽처 또는 관련된 픽처들에 대한 전송량을 줄임으로써 송수신 효율성을 높일 수 있다. 또한, 실시예들에 따른 비디오 전송 장치는 레퍼런스 뷰 대신 전송량이 적은 스파스 뷰만을 전송함으로써 송수신되는 데이터의 양을 효과적으로 줄일 수 있다.

이러한 구성으로 인해, 실시예들에 따른 비디오 수신 장치는 수신되는 데이터의 양을 줄일 수 있어 수신기에 따른 메모리 및/또는 프로세서의 부담을 줄일 수 있다.

실시예들에 따른 수신단에서 복원되는 재생성된 뷰(regenerated view)를 레퍼런스 뷰(reference view)로 사용하는 경우 프루닝(pruning) 및/또는 뷰 재생성(view regeneration)과정에서 정보가 손실 될 수 있는데, 이를 보완하기 위해 송신단에서 추가적인 고려를 해줄 수 있다.

실시예들에 따르면, 두 개 이상의 레퍼런스 뷰(reference view) (c0, v1)를 이용해 소스 뷰(source view) (v2)를 추정하고, 추정 에러 혹은 부가 정보에 해당하는 것을 스파스 뷰(sparse view) (s2)로 전달하는 경우 레퍼런스 뷰(reference view) 중 일부 (본 예제에서는 복원되는 v1)를 직접 전달하지 않고 복원된 정보를 사용함으로써 비트 효율을 높이는 경우를 가정하였다. 이 때, 송신단에서는 레퍼런스(reference) 뷰로 사용되는 v1의 복원 에러를 고려하여 스파스 뷰(sparse view) s2를 생성할 수 있다.

여기서, 실시예들에 따른 수신단에서 사용하게 될 뷰 리제너레이션(view regeneration)방법을 사용해 c0와 s1을 이용하여 v1을 복원한다. s2를 생성할 때 원본 source의 v1이 아닌 regenerated view v1을 이용하게 되면 'pruning/view regeneration 과정에서 정보가 손실된 v1'을 사용함으로써 source view v1을 사용할 때보다 prediction의 정확성이 떨어지는 등 수신기에서 발생할 수 있는 문제를 미리 재현할 수 있으며 이것이 source view v2와의 오차에 반영된다. 이 경우 r1을 직접 보내지 않는다는 점에서 비트 효율을 향상시킬 수 있다.

실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)은 제 1 프루닝 과정(48000), 인코더단의 뷰 리제너레이션(view regeneration, 48001) 및/또는 제 2 프루닝 과정(48002)을 수행할 수 있다. 달리 말하면, 실시예들에 따른 인코더 프리-프로세싱부는 제 1 프루닝 과정을 수행하는 제 1 프루닝부(48000), 인코더단의 뷰 리제너레이션을 수행하는 인코더단 뷰 리제너레이터(view regenerator, 48001) 및/또는 제 2 프루닝 과정을 수행하는 제 2 프루닝부(48002)를 포함할 수 있다.

여기서, 프루닝이란, 하나 또는 그 이상의 픽처(또는 뷰) 내에서 공통되는 부분(또는 영역)을 제거하고, 실시예들에 따른 수신 장치에 의해 예측하기(estimate, predict) 어려운 부분에 대한 정보(또는 픽처)를 생성하는 것이다. 즉, 제 1 픽처를 이용하여 제 2 픽처를 프루닝한다(또는 제 2 픽처를 이용하여 제 1 픽처를 프루닝한다)고 함은, 제 1 픽처와 제 2 픽처의 공통 영역(또는 공통 부분)을 제거하고 제 1 픽처에만 존재하는 특수(unique)한 정보(픽처의 영역) 및/또는 제 2 픽처에만 존재하는 특수(unique)한 정보를 나타내는 픽처(즉, 스파스 뷰 픽처)를 생성한다. 예를 들면, 실시예들에 따른 프루닝부는 제 1 픽처와 제 2 픽처의 차이(difference) 연산을 이용하여 스파스 뷰 픽처를 생성할 수 있다. 실시예들에 따른 프루닝부에 따른 동작의 전부 또는 일부를 의미할 수 있다. 프루닝은 인터-뷰 리던던시 제거(inter-view redundancy removal)로 호칭될 수도 있다. 상술한 실시예들에 따른 프루닝을 하는 방법(또는 실시예)는 프루닝 스킴(pruning scheme)이라고 호칭할 수도 있다.

또한, 여기서 인코더단의 뷰 리제너레이션은 실시예들에 따른 전송 장치에 포함된 뷰 리제너레이션으로, 실시예들에 따른 수신 장치에 포함된 뷰 리제너레이션을 의미할 수도 있다. 즉, 뷰 리제너레이션부는 제 1 뷰잉 포지션에 대한 레퍼런스 뷰와 스파스 뷰를 이용하여 제 1 뷰잉 포지션에 대한 타겟 뷰를 생성하기 위한 픽처를 생성하는 것이다.

제 1 프루닝 과정(또는 제 1 프루닝부, 48000)은, 실시예들에 따른 커먼 레퍼런스 뷰 (common reference view) 픽처 (c0)를 이용하여 실시예들에 따른 소스 뷰(source view)들의 제 1 소스 뷰를 프루닝(pruning)하여 제 1 스파스 뷰를 생성할 수 있다. 제 1 소스 뷰는 제 1 뷰잉 포지션에 대한 소스 뷰를 의미한다. 또한 제 1 스파스 뷰는 제 1 뷰잉 포지션에 대한 스파스 뷰를 의미한다. 여기서 커먼 레퍼런스 뷰 (c0) 는 실시예들에 따른 센터 뷰를 의미할 수 있다.

인코더단의 뷰 리제너레이션 과정(또는 인코더단의 뷰 리제너레이터, 48001)은 실시예들에 따른 커먼 레퍼런스 뷰 (c0) 및 상술한 제 1 스파스 뷰 (s1)에 기초하여 임의 재생성된 뷰 (또는 임의 재생성된 뷰 픽처, temporally regenerated view, v1)을 생성할 수 있다. 여기서 임의 재생성된 뷰는 인코더에 의해 인코딩될 수도 있고 인코딩되지 않을 수도 있다.

제 2 프루닝 과정(또는 제 2 프루닝부, 48002)는, 실시예들에 따른 커먼 레퍼런스 뷰 (common reference view) 픽처 (c0) 및/또는 상술한 임의 재생성된 뷰 픽처를 이용하여, 실시예들에 따른 소스 뷰(source view)들의 제 2 소스 뷰를 프루닝(pruning)할 수 있다. 이 때, 제 2 소스 뷰(v2)를 프루닝하여 제 2 스파스 뷰(s2)를 생성할 수 있다. 제 2 소스 뷰(v2)는 제 2 뷰잉 포지션에 대한 소스 뷰를 의미한다. 또한 제 2 스파스 뷰(s2)는 제 2 뷰잉 포지션에 대한 스파스 뷰를 의미한다. 여기서 커먼 레퍼런스 뷰 (c0) 는 실시예들에 따른 센터 뷰를 의미할 수 있다.

여기서 제 2 스파스 뷰는 실시예들에 따른 인코더에 의해 인코딩될 수 있다. 제 2 스파스 뷰는 실시예들에 따른 디코더단의 뷰 리제너레이션에서 재생성된 뷰를 생성하는 과정에서, 발생할 수 있는 에러를 송신단에서 재생성하여, 그 에러에 대한 스파스 뷰를 의미할 수 있다.

인코더(encoder, 48003)은 실시예들에 따른 인코딩을 수행한다. 인코더는 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0), 제 1 스파스 뷰(s1) 픽처 및/또는 제 2 스파스 뷰(s2) 픽처를 인코딩할 수 있다. 실시예들에 따른 인코더는 수신 장치에게 비트스트림 형태로 상술한 커먼 레퍼런스 뷰 픽처(c0), 제 1 스파스 뷰 픽처(s1) 및/또는 제 2 스파스 뷰 픽처(s2)를 전송할 수 있다. 여기서, 제 1 뷰잉 포지션과 제 2 뷰잉 포지션은 서로 다른 뷰잉 포지션을 의미한다.

여기서 실시예들에 따른 비디오 전송 방법은, 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처 및 센터 뷰(연구원 문의. 같은 건지. 명세서 설명 위해서라도.) 픽처에 기초하여 임시 재생성된 뷰 픽처(temporally regenerated view picture)를 생성하는 단계 및 임시 재생성된 뷰 픽처 및 센터 뷰 픽처로부터 추측된 소스 뷰를 프루닝(pruning)하는 단계를 더 포함할 수 있다. 또한, 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성할 수 있고, 인코딩하는 단계는 제 2 스파스 뷰 픽처를 더 인코딩할 수 있다.

이러한 실시예들에 따른 인코더 프리-프로세싱부의 구조는 실시예들에 따른 프루닝으로 인한 스파스 뷰, 뷰 리제너레이션으로 인한 템포럴리 리제너레이티드 뷰, 프루닝으로 인한 스파스 뷰를 생성하여 실시예들에 따른 수신 장치의 뷰 재생성(view regeneration) 과정을 점검함으로써, 수신 장치에 의해 발생될 수 있는 오류를 방지할 수 있고, 전송 장치에 의해 발생된 인코딩 과정에서의 에러를 검출할 수 있다.

또한, 실시예들에 따른 인코더 프리-프로세싱부의 구조는 실시예들에 따른 프루닝으로 인한 스파스 뷰, 뷰 리제너레이션으로 인한 템포럴리 리제너레이티드 뷰, 프루닝으로 인한 스파스 뷰에 의해, 수신 장치의 뷰 재생성 과정을 재연함으로써, 수신 장치를 사용하는 사용자들(viewers)에게 정확하고 실제와 같은 가상현실 환경을 제공할 수 있다.

또한 실시예들에 따른 수신 장치는 적은 양의 데이터로 사용자들에게 필요한 뷰들을 효율적이고 정확하게 제공할 수 있다. 이러한 실시예들에 따른 구성은 비디오 전송 장치 및 수신 장치의 연산량 부담을 줄일 수 있다.

실시예들에 따른 인코더 디코더 포스트-프로세싱부(decoder post-processing modules)의 실시예들에 따른 뷰 리제너레이션(first view regeneration)은 제 1 템포럴리 재생성된 뷰 픽처를 생성하기 위한 제 1 뷰 리제너레이션 과정(49000), 및/또는 제 1 템포럴리 재생성된 뷰를 이용하여 제 2 뷰 리제너레이션(second view regeneration, 49001)을 수행할 수 있다. 달리 말하면, 실시예들에 따른 디코더 포스트-프로세싱부는 제 1 뷰 리제너레이션 과정을 수행하는 제 1 리제너레이터(49000), 제 2 뷰 리제너레이션 과정을 수행하는 제 2 뷰 리제너레이터를 포함할 수 있다.

에러에 강인하도록 인코딩 된 정보의 경우 실시예들에 따른 수신기를 그대로 사용할 수 있다. 다만 view 2를 복원할 때 view 1을 reference view로 사용하기 때문에 view 1 regeneration후에 view 2 regeneration 이 이루어 져야 한다는 view 간의 복원 순서가 중요하게 되며, 이를 view 2 regeneration 관련 메타데이터 혹은 관련 시스템에 추가적으로 전달할 수 있다.

따라서 첫째, 하나의 reference view (c0) 와 부가 정보 sparse view (s1)가 전달된 경우, c0를 이용하여 target view를 추정하고 (이 때 송신단에서 사용한 추정 방법을 이용) s1을 이용해 최종 target view를 복원할 수 있다. 여기서, 필요한 정보는 타겟 뷰(target view)의 위치/방향/회전 등에 대한 정보, 레퍼런스 뷰(reference view)의 위치/방향/회전 등의 정보, 레퍼런스 뷰(reference view)로부터 타겟 뷰(target view)를 추정하는 방법에 관한 정보, 스파스 뷰(sparse view)를 이용한 최종 재생성된 뷰(regenerated view) 생성 방법 관련 정보를 포함할 수 있다.

또한 둘째, 두 개 이상의 레퍼런스 뷰(reference view) (c0, r1)와 부가 정보 스파스 뷰(sparse view) (s2)가 전달된 경우, c0과 r1를 이용하여 타겟 뷰(target view)를 추정하고 s2을 이용해 최종 타겟 뷰(target view)를 복원한다. 여기서 필요한 정보는 타겟 뷰(target view)의 위치/방향/회전 등의 정보, 레퍼런스 뷰(reference view) 각각의 위치/방향/회전 등의 정보, 복수의 레퍼런스 뷰(reference view)로부터 타겟 뷰(target view) 추정 방법, 스파스 뷰(sparse view)를 이용한 최종 재생성된 뷰(regenerated view)생성 방법 관련 정보를 포함할 수 있다. 또한 레퍼런스 뷰(reference view)의 전달 여부, 레퍼런스 뷰(reference view)의 생성 방법 (view regeneration 방법 및 이 때 필요한 정보와 영상에 관한 정보(예를 들어, c0, s1), reference view 위치, error robust하게 생성 되었는지 여부 등)을 포함할 수 있다.

실시예들에 따른 뷰 리제너레이션은 제 1 뷰 리제너레이션(view regeneration, 49000) 및 제 2 뷰 리제너레이션(49001)을 수행할 수 있다. 도 49에서 나타난 실시예들에 따른 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

제 1 뷰 리제너레이션(또는 제 1 뷰 리제너레이터, 49000)은, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(common reference view picture, c0) 및/또는 수신한 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처를 이용하여 임시 재생성된 뷰(또는 타겟 뷰, v1)를 생성할 수 있다. 제 1 스파스 뷰 픽처는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미할 수 있다. 제 1 스파스 뷰 픽처는 수신한 스파스 뷰 픽처들 내에 포함된다. 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)는 센터 뷰(또는 중앙 뷰)를 의미할 수 있다. 제 1 뷰 리제너레이션은 제 1 뷰잉 포지션에 대한 타겟 픽처를 생성할 수도 있다. 즉, 임시 재생성된 뷰는 제 1 뷰잉 포지션에 대한 타겟 픽처일 수도 있다.

제 2 뷰 리제너레이션(또는 제 2 뷰 리제너레이터, 49001)은 제 2 뷰잉 포지션에 대한 타겟 픽처를 생성한다. 이 때, 제 2 뷰 리제너레이션(또는 제 2 리제너레이션부는) 상술한 생성된 임시 재생성된 뷰(또는 제 1 뷰잉 포지션에 대한 타겟 픽처) 및/또는 제 2 스파스 뷰 픽처 (s2)를 이용하여 제 2 재생성된 뷰 픽처(v2)를 생성할 수 있다.

제 2 뷰 리제너레이션부가 제 2 재생성된 뷰(v2)를 생성하기 위하여, 제 2 뷰잉 포지션에 대한 정보를 이용할 수 있다. 예를 들어, 제 2 뷰 리제너레이션부는 제 2 재생성된 뷰(또는 제 1 타겟 뷰)의 의 위치/방향/회전 등의 정보를 이용하여 제 2 재생성된 뷰(v2)를 생성할 수 있다. 또한, 제 2 뷰 리제너레이션부는 레퍼런스 뷰(reference view)들의 위치/방향/회전 등의 정보, 레퍼런스 뷰들(reference view)로부터 제 2 타겟 뷰(target view, v2)를 추정하는 방법과 관련된 정보, 스파스 뷰(sparse view)들을 이용한 최종 재생성된 뷰들(regenerated view)에 대한 생성 방법과 관련된 정보 등을 이용할 수 있다. 예를 들어, 레퍼런스 뷰(reference view)(들)이 전달되었는지 여부, 레퍼런스 뷰의 생성 방법과 관련된 정보(즉, 제 1 뷰 리제너레이션과 관련된 정보로써, 제 1 뷰 리제너레이션의 뷰 재생성 방법 등), 레퍼런스 뷰의 위치, 에러 로버스트하게 생성되었는지 여부에 관한 정보를 이용할 수 있다. 예를 들면, 실시예들에 따른 view_regeneration_method_type, num_ref_views, num_views_using_this_ref_view, viewing_position_picture_type, picture_id, view_regeneration_method_type 등이 이용될 수 있다.

실시예들에 따른 regenerated view를 사용함으로 인해 발생하는 오류를 고려하는 것 (좌측 <BOX 1>)에 더하여 packed picture를 encoding하는 과정에서 발생하는 오류를 추가적으로 고려 (우측 <BOX 2>)할 수 있다.

즉, 인코딩 디코딩 과정에서 발생할 수 있는 오류를 재현하기 위해 1) sparse view 및 reference view 등 전송되어야 할 정보들을 packing 한 후에 2) target bitrate로 encoding 을 하고, 생성된 bitstream에 대해 3) decoding 및 4) unpacking 과정을 거쳐서 reference view와 sparse view를 획득할 수 있다. 이 때, 각각의 영상은 encoding/decoding으로 인한 오류를 가지고 있는데, 이들을 이용하여 view regeneration 과정을 거치게 되면 수신기에서 영상 재현 시 에 발생하는 코딩 오류와 view regeneration 으로 인한 오류가 발생한 영상이 view regeneration 에서 미치는 영향을 고려할 수 있으며, 이렇게 재현된 c0, s1, v1을 바탕으로 source view v2를 추정하고 생성된 sparse view s2에는 '코딩으로 인해 발생할 수 있는 오류'와 'reference view regeneration 으로 인해 발생하는 오류' 가 모두 반영되게 된다.

실시예들에 따른 인코더 프리-프로세싱부는 제 1 프루닝부(50000), 인코더단의 제 1 뷰 리제너레이션부(50001), 제 2 프루닝부(50002), 제 1 패킹/인코딩부(50003, packing/encoder), 인코더단의 디코더/언패킹부(50004, decoder/unpacking), 인코더단의 제 2 뷰 리제너레이션부(50005), 제 3 프루닝부(50006) 및/또는 제 2 패킹/인코딩부(50007)를 포함한다. 도 50에서 나타난 실시예들에 따른 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다. 또한, 실시예들에 따른 제 1 프루닝부, 제 2 프루닝부 및/또는 제 3 프루닝부는 실시예들에 따른 인터-뷰 리던던시 제거부에 포함될 수도 있다. 또한, 패킹/인코딩부는 실시예들에 따른 패커(packer, 또는 패킹부) 및/또는 인코딩부(encoding, 또는 인코더)를 포함하는 개념이다.

제 1 프루닝부(50000)는, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 실시예들에 따른 제 1 소스 뷰 픽처(v1)를 프루닝(또는 인터-뷰 리던던시 제거)하여 제 1 스파스 뷰를 생성할 수 있다. 제 1 소스 뷰 픽처는 소스 뷰 픽처들 중 제 1 뷰잉 포지션에 대한 소스 뷰 픽처를 의미한다. 또한 제 1 스파스 뷰 픽처는 인터-뷰 리던던시 제거부에 의해 생성된 스파스 뷰 픽처들 중 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 생성된 제 1 스파스 뷰 픽처는 제 1 패킹/인코딩부 및/또는 제 2 패킹/인코딩부에 의해 패킹되고 인코딩될 수 있다.

여기서, 커먼 레퍼런스 뷰란 레퍼런스 뷰(reference view)로서 실시예들에 따른 프루닝부 또는 실시예들에 따른 인코더단의 제 1 뷰 리제너레이션부에 공통적으로 사용되는 뷰를 의미할 수 있다. 예를 들어, 여기서 커먼 레퍼런스 뷰 (c0) 는 실시예들에 따른 센터 뷰를 의미할 수 있다.

소스 뷰 픽처(sourc view picture, 또는 소스 뷰)란, 실시예들에 따른 인코더 프리-프로세싱부가 획득한 원본 픽처(또는 원본 영상)을 의미한다. 스파스 뷰 픽처(sparse view picture, 또는 스파스 뷰)란, 실시예들에 따른 프루닝부에 의해 리던던시(redundancy)가 제거된 픽처를 의미한다.

인코더단의 제 1 뷰 리제너레이션부(50001)는, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및/또는 상술한 제 1 스파스 뷰 픽처(s1)에 기초하여 임시 재생성된 뷰 (v1)를 생성한다. 여기서 임시 재생성된 뷰 (v1)는 제 1 뷰잉 포지션에 대한 타겟 뷰와 관련된 픽처이다. 임시 재생성된 뷰는 실시예들에 따른 제 1 패킹/인코더부 및/또는 제 2 패킹/인코더부에 의해 패킹 및/또는 인코딩될 수도 있고, 안될 수도 있다. 즉, 임시 재생성된 뷰는 실시예들에 따른 수신단으로 전송될 수도 있고 전송되지 않을 수도 있다.

제 2 프루닝부(50002)는, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및/또는 상술한 임시 재생성된 뷰에 기초하여 추정된 제 2 소스 뷰 픽처(v2)를 프루닝(또는 인터-뷰 리던던시 제거)하여 템포랄 스파스 뷰(temporal sparse view)를 생성할 수 있다. 이 때, 제 2 소스 뷰 픽처는 수신한 소스 뷰들 내에 포함된 제 2 뷰잉 포지션과 관련된 소스 뷰 픽처를 의미할 수도 있고, 상술한 임시 재생성된 뷰와 커먼 레퍼런스 뷰 픽처(c0)로부터 추청된 제 2 뷰잉 포지션에 대한 소스 뷰 픽처를 의미할 수도 있다. 템포랄 스파스 뷰 픽처(s2)는 소스 뷰 픽처들 중 제 2 뷰잉 포지션에 대한 소스 뷰 픽처를 의미할 수 있다. 즉 템포랄 스파스 뷰 픽처는 제 1 뷰 리제너레이션부에 의해 생성된 제 1 뷰잉 포지션에 대한 재생성된 뷰를 이용하여 추정된 제 2 소스 뷰에 대한 에러들을 포함할 수 있다.

실시예들에 따른 인코더단의 제 1 뷰 리제너레이션부 및/또는 제 2 프루닝부는 수신 장치로 하여금 패킹(packing)에 의한 영향을 최소화(또는 고려)하기 위한 목적을 지닌다.

제 1 패킹/인코더부(50003)은 상술한 제 1 스파스 뷰 픽처(s1) 및/또는 상술한 템포랄 스파스 뷰 픽처(s2)를 수신하여 실시예들에 따라 패킹된 픽처(packed picture)로 패킹할 수 있고, 패킹된 픽처를 실시예들에 따라 인코딩하여 비트스트림을 출력할 수 있다.

인코더단의 디코더/언패킹부(50004)는, 실시예들에 따른 제 1 패킹/인코더부(50003)으로부터 생성된 비트스트림을 실시예들에 따라 디코딩한 후, 디코딩된 비트스트림에 대하여 언패킹(unpacking)을 수행할 수 있다. 실시예들에 따른 디코더/언패킹부는 제 1 패킹/인코더부로부터 수신한 비트스트림을 디코딩 및/또는 언패킹하여 임시 디코딩된 커먼 레퍼런스 뷰(temporally decoded common reference view, c0) 및/또는 제 1 뷰잉 포지션에 대한 임시 디코딩된 스파스 뷰(temporally decoded sparse view, s1)를 포함할 수 있다.

임시 디코딩된 커먼 레퍼런스 뷰(temporally decoded sparse view, 또는 템포럴리 디코딩된 커먼 레퍼런스 뷰 픽처)는 실시예들에 따른 인코더-프리 프로세싱부가 패킹/인코딩한 비트스트림을 뷰 재생성하기 위하여 다시 디코딩/언패킹하여 생성한 커먼 레퍼런스 뷰 픽처를 의미한다. 또한, 임시 디코딩된 스파스 뷰 픽처는 실시예들에 따른 인코더-프리 프로세싱부가 패킹/인코딩한 비트스트림을 뷰 재생성하기 위하여 다시 디코딩/언패킹하여 생성한 스파스 뷰 픽처이다. 템포럴리 리제너레이티트 뷰란 실시예들에 따른 인코더-프리 프로세싱부가 패킹/인코딩한 비트스트림을 뷰 재생성하기 위하여 다시 디코딩/언패킹하고 인코더단의 뷰 리제너레이션부에 의해 임시로 생성된 뷰를 의미한다.

디코디드 센터 뷰(decoded center view)란, 임시 디코딩된 커먼 레퍼런스의 예일 수 있다.

임시 디코딩된 커먼 레퍼런스 뷰 및/또는 임시 디코딩된 스파스 뷰 픽처들은 패킹/인코딩부에 의해 패킹 및/또는 인코딩된 비트스트림이 다시 디코딩 및/또는 언패킹되는 경우 생성되는 픽처일 수 있다. 여기서 임시 디코딩된 스파스 뷰 픽처들은, 제 1 뷰잉 포지션에 대한 임시 디코딩된 스파스 뷰(s1)을 포함할 수 있다.

인코더단의 제 2 뷰 리제너레이션부(50005)는, 실시예들에 따른 임시 디코딩된 커먼 레퍼런스 뷰(c0) 픽처 및/또는 실시예들에 따른 제 1 뷰잉 포지션에 대한 임시 디코딩된 스파스 뷰 픽처(s1)에 기초하여 제 1 재생성된 뷰(v1, regenerated view)를 생성할 수 있다. 이 때, 임시 디코딩된 커먼 레퍼런스 뷰 픽처는 상술한 커먼 레퍼런스 뷰 픽처와 동일할 수도 있고 다를 수도 있다. 또한, 임시 디코딩된 커먼 레퍼런스 뷰 픽처는 디코딩된 센터 뷰로 호칭될 수도 있다.

제 3 프루닝부(50006)는 실시예들에 따른 디코딩된 센터 뷰 및/또는 상술한 제 1 재생성된 뷰(v1)을 이용하여 추정된 제 2 추정 소스 뷰(v2)를 프루닝하여 에러 로버스트 스파스 뷰 픽처(error robust sparse view picture, s2)를 생성할 수 있다. 여기서 제 1 재생성된 뷰는 제 1 뷰잉 포지션과 관련된 재생성된 뷰를 의미한다. 또한, 제 2 추정 소스 뷰는 제 2 뷰잉 포지션과 관련된 임시 생성된 소스 뷰를 의미한다. 여기서 제 2 추정 소스 뷰는 상술한 제 2 소스 뷰 픽처와 동일할 수도 있고 다를 수도 있다. 또한, 에러 로버스트 스파스 뷰 픽처(s2)는 제 2 뷰잉포지션에 대한 스파스 뷰 픽처를 의미할 수 있다.

에러 로버스트 스파스 뷰 픽처(error robust sparse view picture, s2)란, 실시예들에 따른 인코더 프리-프로세싱부의 디코딩/언패킹 및/또는 뷰 리제너레이션 및/또는 프루닝부에 의해 추가적으로 검출된 오류를 나타내는 픽처를 의미한다. 즉, 에러 로버스트 스파스 뷰 픽처는 수신기로 하여금 발생할 수 있는 추가 오류를 더 방지하여 에러 강인성(error robustness)를 보장하기 위한 픽처이다. 에러 로버스트 스파스 뷰 픽처는 제 1 재생성된 뷰를 재생성하는 과정에서 발생할 수 있는 오류(v1 regeneration error)에 대한 정보, 수신 장치가 센터 뷰를 생성하거나 디코딩/언패킹을 수행하면서 발생할 수 있는 오류(c0, s1 encoding error)에 대한 정보를 포함할 수 있다.

제 2 패킹/인코더부(50007)는, 실시예들에 따른 에러 로버스트 스파스 뷰 픽처 및/또는 상술한 제 1 스파스 뷰 픽처를 패킹 및/또는 인코딩할 수 있다. 제 2 패킹/인코더부는, 상술한 제 1 스파스 뷰 픽처(s1) 및/또는 에러 로브스트 스파스 뷰 픽처(s2)를 수신하여 실시예들에 따라 패킹된 픽처(packed picture)로 패킹할 수 있고, 패킹된 픽처를 실시예들에 따라 인코딩하여 비트스트림을 출력할 수 있다.

실시예들에 따른 비디오 전송 방법은, 패킹 및 인코딩된 픽처들을 디코딩 및 언패킹하는 단계 임시 디코딩된 공통 레퍼런스 뷰 픽처 및 임시 디코딩된 스파스 뷰 픽처에 기초하여 재생성된 뷰를 생성하는 단계 및, 재생성된 뷰 및 임시 디코딩된 공통 레퍼런스 뷰 픽처로부터 추측된 소스 뷰 픽처를 프루닝하는 단계를 포함할 수 있다.

여기서, 디코딩 및 언패킹된 픽처들은 임시 디코딩된 공통 레퍼런스 뷰 픽처(temporally decoded common reference view picture) 및 임시 디코딩된 스파스 뷰 픽처(temporally decoded sparse view picture)를 포함할 수 있다. 또한, 프루닝하는 단계는 오류 로버스트 스파스 뷰 픽처(error robust sparse view picture)를 생성할 수 있다. 또한, 패킹하는 단계는 오류 로버스트 스파스 뷰 픽처를 더 패킹할 수 있다.

이러한 실시예들에 따른 인코더 프리-프로세싱부의 구조는 도 50의 <BOX 1> 및/또는 <BOX 2>에서 나타난 구성요소 전부 또는 일부를 더 수행함으로써, 실시예들에 따른 수신 장치의 뷰 재생성(view regeneration) 과정을 점검할 수 있다. 따라서, 실시예들에 따른 전송 장치는, 수신 장치에 의해 발생될 수 있는 오류를 방지하여 오류 강인성(error robustness)를 보장할 수 있고, 비디오 전송 장치에 의해 발생된 인코딩 과정에서의 에러를 검출할 수 있다.

또한 실시예들에 따른 인코더 프리-프로세싱부의 구조는 실시예들에 따른 수신 장치의 디코딩 동작, 언패킹 동작, 실시예들에 따른 센터 뷰 제너레이션 동작, 중간 뷰 생성 동작 등을 재연함으로써 발생할 수 있는 오류를 미리 검출할 수 있다. 따라서, 실시예들에 따른 수신 장치는 비디오 전송 장치로부터 정확하고 오류 없는 데이터를 수신할 수 있다.

또한, 실시예들에 따른 인코더 프리-프로세싱부의 구조는 수신 장치의 뷰 재생성 과정을 재연함으로써, 수신 장치를 사용하는 사용자들(viewers)에게 정확하고 실제와 같은 가상현실 환경을 제공할 수 있다.

에러에 강인하도록 인코딩 된 정보의 경우 기존 수신기를 그대로 사용할 수 있다. 다만 view 2를 복원할 때 view 1을 reference view로 사용하기 때문에 view 1 regeneration후에 view 2 regeneration 이 이루어 져야 한다는 view 간의 복원 순서가 중요하게 되며, 이를 view 2 regeneration 관련 메타데이터 혹은 관련 시스템에 추가적으로 전달할 수 있다.

따라서 첫째, 하나의 레퍼런스 뷰(reference view, 또는 공통 레퍼런스 뷰, 센터 뷰 픽처) (c0) 와 부가 정보 sparse view (s1)가 전달된 경우, c0를 이용하여 타겟 뷰(target view)를 추정하고 (이 때 송신단에서 사용한 추정 방법을 이용) s1을 이용해 최종 타겟 뷰(target view)를 복원할 수 있다. 이 때, 필요한 정보는, 타겟 뷰(target view) 의 위치/방향/회전 등의 정보, 레퍼런스 뷰(reference view)의 위치/방향/회전 등의 정보, 레퍼런스 뷰(reference view)로부터 타겟 뷰(target view) 추정 방법, 스파스 뷰(sparse view)를 이용한 최종 재생성된 뷰(regenerated view)생성 방법에 관한 정보를 포함할 수 있다.

또한 둘째, 두 개 이상의 reference view (c0, r1)와 부가 정보 sparse view (s2)가 전달된 경우, c0과 r1를 이용하여 target view를 추정하고 s2을 이용해 최종 target view를 복원할 수 있다. 이 때 필요한 정보는 타겟 뷰(target view)의 위치/방향/회전 등의 정보, 레퍼런스 뷰(reference view)각각의 위치/방향/회전 등의 정보, 복수의 레퍼런스 뷰(reference view)로부터 타겟 뷰(target view)추정 방법, 스파스 뷰(sparse view)를 이용한 최종 재생성된 뷰(regenerated view)생성 방법에 관한 정보를 포함할 수 있다. 또한 레퍼런스 뷰(reference view)전달 여부, 레퍼런스 뷰(reference view)생성 방법, 뷰 리제너레이션(view regeneration)방법 및 이 때 필요한 정보와 영상 : c0, s1), 레퍼런스 뷰(reference view)위치, 에러 로버스트(error robust)하게 생성 되었는지 여부 및 고려된 에러(error)의 종류 등이 요구될 수 있다.

구체적으로 말하면, 실시예들에 따른 뷰 리제너레이션은 제 1 뷰 리제너레이션(view regeneration, 51000) 및 제 2 뷰 리제너레이션(51001)을 수행할 수 있다. 도 49에서 나타난 실시예들에 따른 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

제 1 뷰 리제너레이션(또는 제 1 뷰 리제너레이터, 51000)은, 실시예들에 따른 커먼 레퍼런스 뷰 픽처(common reference view picture, c0) 및/또는 수신한 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처를 이용하여 임시 재생성된 뷰(또는 타겟 뷰, v1)를 생성할 수 있다. 제 1 스파스 뷰 픽처는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미할 수 있다. 제 1 스파스 뷰 픽처는 수신한 스파스 뷰 픽처들 내에 포함된다. 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)는 센터 뷰(또는 중앙 뷰)를 의미할 수 있다. 제 1 뷰 리제너레이션은 제 1 뷰잉 포지션에 대한 타겟 픽처를 생성할 수도 있다. 즉, 제 1 재생성된 뷰(또는 임시 재생성된 뷰)는 제 1 뷰잉 포지션에 대한 타겟 픽처일 수도 있다.

제 1 뷰 리제너레이션부가 제 1 재생성된 뷰(v1)를 생성하기 위하여, 제 1 뷰잉 포지션에 대한 정보를 이용할 수 있다. 예를 들어, 제 1 뷰 리제너레이션부는 제 1 재생성된 뷰(또는 임시 재생성된 뷰, 제 1 타겟 뷰, v1)의 의 위치/방향/회전 등의 정보를 이용하여 제 1 재생성된 뷰(v1)를 생성할 수 있다. 또한, 제 1 뷰 리제너레이션부는 레퍼런스 뷰(reference view)들의 위치/방향/회전 등의 정보, 레퍼런스 뷰들(reference view)로부터 제 1 타겟 뷰(target view)를 추정하는 방법과 관련된 정보, 스파스 뷰(sparse view)들을 이용한 최종 재생성된 뷰들(regenerated view)에 대한 생성 방법과 관련된 정보 등을 이용할 수 있다.

제 2 뷰 리제너레이션(또는 제 2 뷰 리제너레이터, 51001)은 제 2 뷰잉 포지션에 대한 타겟 픽처를 생성한다. 이 때, 제 2 뷰 리제너레이션(또는 제 2 리제너레이션부는) 상술한 생성된 제 1 재생성된 뷰(또는 임시 재생성된 뷰, 제 1 뷰잉 포지션에 대한 타겟 픽처) 및/또는 제 2 스파스 뷰 픽처 (s2)를 이용하여 제 2 재생성된 뷰 픽처(v2)를 생성할 수 있다.

실시예들에 따르면, 실시예들에 따른 디코더 포스트-프로세싱부는 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션이 사용되는지 여부와 관련된 시그널링 정보를 수신할 수 있다. 또한, 제 1 뷰 리제너레이션이 수행된 후 제 2 뷰 리제너레이션이 수행되는지 등 그 순서와 관련된 시그널링 정보를 수신할 수 있다. 이는 실시예로 리제너레이션 정보(regeneration information)에 포함될 수 있다.

또한, 레퍼런스 뷰 픽처(reference view)가 추가적으로 전달되는 경우, 레퍼런스 뷰의 생성 방법과 관련된 정보 등이 추가적으로 전달될 수 있다. 또한, 해당 레퍼런스 뷰 픽처의 위치, 해당 레퍼런스 뷰 픽처가 실시예들에 따른 인코더단에 의해 에러-강인하게(error-robust) 생성되었는지 여부 및/또는 해당 에러의 종류에 관한 정보를 더 포함할 수 있다.

예를 들어, 레퍼런스 뷰(reference view)(들)이 전달되었는지 여부, 레퍼런스 뷰의 생성 방법과 관련된 정보(즉, 제 1 뷰 리제너레이션과 관련된 정보로써, 제 1 뷰 리제너레이션의 뷰 재생성 방법 등), 레퍼런스 뷰의 위치, 에러 로버스트하게 생성되었는지 여부에 관한 정보를 이용할 수 있다. 예를 들면, 실시예들에 따른 view_regeneration_method_type, num_ref_views, num_views_using_this_ref_view, viewing_position_picture_type, picture_id, view_regeneration_method_type 등이 이용될 수 있다.

상술한 실시예들에 따른 제 1 뷰 리제너레이션 및 제 1 재생성된 뷰를 이용한 제 2 뷰 리제너레이션과 같은 구성으로 인해, 실시예들에 따른 수신 장치는 재생성된 뷰(regenerated view)들을 정확하고 효율적으로 생성할 수 있다. 또한, 실시예들에 따른 수신 장치는 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 생성하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처를 이용함으로써 적은 양의 데이터로 효율적으로 뷰들을 재생성할 수 있다.

또한, 실시예들에 따른 전송 장치는 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 제공하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처만을 전송함으로써 데이터 송신의 효율성을 높일 수 있고, 연산량을 감소시킬 수 있다.

실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)으로 제 1 스파스 뷰를 위한 프루닝(52000), 제 2 스파스 뷰를 위한 제 1 프루닝(52001, 제 2 스파스 뷰를 위한 제 1 프루닝부, 제 2 스파스 뷰를 위한 제 1 프루너), 제 2 스파스 뷰를 위한 제 2 프루닝(52002, 제 2 스파스 뷰를 위한 제 2 프루너, 제 2 스파스 뷰를 위한 제 2 프루닝부) 및 스파스 뷰 셀렉션(52003, 스파스 뷰 셀렉션부, sparse view selection)을 포함할 수 있다. 실시예들에 따른 프루닝 스킴은 실시예들에 따른 인터-뷰 리던던시 제거부에서 수행될 수도 있다. 실시예들에 따른 프리-프로세싱부는 패킹/인코딩부(52004, packing/encoding)를 포함할 수 있다.

pruning 정보의 정확성 및 효율성을 높이기 위해 송신단에서 위의 그림과 같이 다양한 입력 영상을 바탕으로 target view를 추정하고 이를 통해 생성된 sparse view를 비교하여 선택적으로 전달하는 방법을 구성할 수 있다. 이 때 추정하기 위해 사용하는 영상의 수를 변화시킬 수도 있고, 서로 다른 영상을 사용할 수도 있다.

sparse view selection 은 복원된 영상의 객관적 화질 혹은 오류 여부 등을 근거로 판단할 수 있으며, 이를 위해 sparse view 및 reference view 를 바탕으로 영상을 재구성 (view regeneration) 하여 원본 영상과 비교 (e.g., WS-PSNR, hole을 통한 prediction error detection 등) 하는 과정을 거칠 수 있다.

여기서, sparse view selection은 sparse view 의 정보가 적은 것을 select할 수 있다. selection 에 따라서 reference view에 대한 정보가 다르게 전달될 수 있다.

제 1 스파스 뷰를 위한 프루닝(52000)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 소스 뷰들의 제 1 소스 뷰(v1)를 이용하여(또는 기초하여) 제 1 뷰잉 포지션을 위한 스파스 뷰 픽처(s1)를 생성할 수 있다. 다시 말하면, 제 1 스파스 뷰를 위한 프루닝은, 제 1 소스 뷰(v1)를 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 프루닝하여 제 1 뷰잉 포지션을 위한 스파스 뷰 픽처(s1)를 생성한다. 여기서 제 1 소스 뷰(v1)은 실시예들에 따른 소스 뷰들 중 제 1 뷰잉 포지션에 대한 소스 뷰를 의미한다.

제 2 스파스 뷰를 위한 제 1 프루닝(52001)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 소스 뷰들의 제 2 소스 뷰(v2)를 이용하여(또는 기초하여) 제 2 뷰잉 포지션을 위한 제 1 스파스 뷰 픽처(s2-1)를 생성할 수 있다. 다시 말하면, 제 2 스파스 뷰를 위한 제 1 프루닝은, 제 2 소스 뷰(v2)를 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 프루닝하여 제 2 뷰잉 포지션을 위한 제 1 스파스 뷰 픽처(s2-1)를 생성한다. 여기서 제 2 소스 뷰(v2)은 실시예들에 따른 소스 뷰들 중 제 2 뷰잉 포지션에 대한 소스 뷰를 의미한다. 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션이다.

제 2 스파스 뷰를 위한 제 2 프루닝(52001)은 실시예들에 따른 제 1 소스 뷰(v1) 및 실시예들에 따른 소스 뷰들의 제 2 소스 뷰(v2)를 이용하여(또는 기초하여) 제 2 뷰잉 포지션을 위한 제 2 스파스 뷰 픽처(s2-1)를 생성할 수 있다. 다시 말하면, 제 2 스파스 뷰를 위한 제 2 프루닝은, 제 2 소스 뷰(v2)를 실시예들에 따른 제 1 소스 뷰(v1)를 이용하여(또는 제 1 소스 뷰를 실시예들에 다른 제 2 소스 뷰를 이용하여) 프루닝하여 제 2 뷰잉 포지션을 위한 제 2 스파스 뷰 픽처(s2-2)를 생성한다.

즉, 제 2 스파스 뷰를 위한 제 1 프루닝(52002)과 제 2 스파스 뷰를 위한 제 2 프루닝(52002)은 제 2 소스 뷰와 관련된 스파스 뷰인, 제 2 뷰잉 포지션에 대한 스파스 뷰 픽처를 생성한다. 즉, 제 2 뷰잉 포지션과 관련된 스파스 뷰를 생성하기 위하여 제 2 스파스 뷰를 위한 제 1 프루닝은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(또는 센터 뷰 픽처)를 이용하고, 제 2 스파스 뷰를 위한 제 2 프루닝은 실시예들에 다른 제 1 소스 뷰를 이용한다.

스파스 뷰 셀렉션(52003)은 상술한 제 2 뷰잉 포지션을 위한 제 1 스파스 뷰 픽처(s2-1) 및/또는 제 2 뷰잉 포지션을 위한 제 2 스파스 뷰 픽처(s2-2) 중 하나(또는 그 이상)을 선택한다. 여기서 스파스 뷰 셀렉션은 상술한 제 2 뷰잉 포지션을 위한 제 1 스파스 뷰 픽처(s2-1) 및/또는 제 2 뷰잉 포지션을 위한 제 2 스파스 뷰 픽처(s2-2) 중 데이터의 양이 작은 것을 선택할 수 있다.

스파스 뷰 셀렉션(52003)은 상술한 제 2 뷰잉 포지션을 위한 제 1 스파스 뷰 픽처(s2-1) 및/또는 제 2 뷰잉 포지션을 위한 제 2 스파스 뷰 픽처(s2-2) 중, 이들에 기초하여 복원되는 영상이 생성되는 경우 발생할 수 있는 오류의 양(예를 들어, 화질의 변화 등) 및 오류의 질 등을 확인할 수 있다. 예를 들어 스파스 뷰 셀렉션은, 복원 영상의 오류 여부를 확인하기 위해 실시예들에 따른 스파스 뷰들(sparse views) 및 레퍼런스 뷰들(reference views)을 이용하여 영상을 재구성 (또는 뷰 리제너레이션) 하여 원본 영상(예를 들어, 소스 뷰 픽처들)과 비교 (e.g., WS-PSNR, hole을 통한 prediction error detection 등) 하는 과정을 거칠 수 있다.

패킹/인코딩부(52004)는 실시예들에 따른 스파스 뷰들을 패킹 및/또는 인코딩할 수 있다. 여기서 패킹/인코딩부(52004)는 상술한 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처(s1) 및 스파스 뷰 셀렉션(52003)에 의해 선택된 제 2 뷰잉 포지션을 위한 스파스 뷰 픽처(s2-1 또는 s2-2)를 패킹 및/또는 인코딩할 수 있다.

예를 들어, 만약 제 2 뷰잉 포지션에 대한 제 2 스파스 뷰 픽처(s2-2)의 데이터 양이 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)의 데이터 양보다 크다면, 실시예들에 따른 스파스 뷰 셀렉션은 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)를 선택하고, 실시예들에 따른 패킹/인코딩부는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처(s1) 및 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)를 패킹 및/또는 인코딩할 수 있다.

다른 예로, 만약 제 2 뷰잉 포지션에 대한 제 2 스파스 뷰 픽처(s2-2)의 추정되는 오류가 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)의 추정되는 오류보다 크다면, 실시예들에 따른 스파스 뷰 셀렉션은 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)를 선택하고, 실시예들에 따른 패킹/인코딩부는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처(s1) 및 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처(s2-1)를 패킹 및/또는 인코딩할 수 있다.

여기서, 실시예들에 따른 인터-뷰 리던던시 제거하는 단계는, 제 1 뷰잉 포지션과 관련된 제 1 소스 뷰 픽처를 센터 뷰 픽처에 기초하여 제 1 프루닝하는 단계, 여기서 제 1 프루닝하는 단계는 제 1 스파스 뷰 픽처를 생성함; 제 1 소스 뷰 픽처를 제 1 뷰잉 포지션과 다른 제 2 뷰잉 포지션과 관련된 제 2 소스 뷰 픽처에 기초하여 제 2 프루닝하는 단계, 여기서 제 2 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함; 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 하나의 픽처를 선택하는 단계; 를 포함할 수 있고, 인코딩하는 단계는 제 1 스파스 뷰 픽처 및 제 2 스파스 뷰 픽처 중 선택된 하나의 픽처를 더 인코딩할 수 있다.

실시예들에 따른 전송 장치는, 스파스 뷰 셀렉션부(sparse view selection)를 하나의 뷰잉 포지션에 대하여 스파스 뷰 픽처를 이용하여 선택함으로써 전송 장치 및 수신 장치의 송수신 환경에 대응하여 데이터의 양과 연산량을 조절하는 적응적 인터-뷰 리던던시 제거 동작을 수행할 수 있다. 따라서, 실시예들에 따른 전송 장치는 전송 장치의 송신 환경 및 수신 장치의 수신 환경을 고려하여 스파스 뷰를 선택함으로써 송수신 환경에 신속하게 대응할 수 있다.

또한, 실시예들에 따른 전송 장치는, 스파스 뷰 셀렉션부(sparse view selection)를 하나의 뷰잉 포지션에 대하여 스파스 뷰 픽처를 이용하여 선택함으로써 하나의 뷰잉 포지션에 대한 다양한 스파스 뷰 픽처의 오류의 양을 판단하여 오류가 적은 픽처를 선택하고, 수신 장치를 사용하는 사용자들(viewer)에게 정확하고 실제와 같은 가상 현실 환경을 제공할 수 있다.

실시예들에 따른 뷰 리제너레이션은 제 1 뷰 리제너레이션(view regeneration, 53000) 및 제 2 뷰 리제너레이션(53001)을 수행할 수 있다. 도 53에서 나타난 실시예들에 따른 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

제 1 뷰 리제너레이션 (53000) (또는 뷰 재생기)은 커먼 레퍼런스 뷰(c0) 및 스파스 뷰 픽처들 중 제 1 스파스 뷰 (s1)에 기초하여 리제너레이티드 뷰(v1)를 재생성(생성)한다. 예를 들어, 재생 뷰 (v1)는 센터 뷰 픽처 및 제 1 스파스 뷰 픽처(s1)에 기초하여 예측 될 수 있다. 여기서 제 1 스파스 뷰 픽처는 실시예들에 따른 수신한 스파스 뷰 픽처들 중 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 또한 커먼 레퍼런스 뷰(또는 커먼 레퍼런스 뷰 픽처)는 센터 뷰일 수 있다. 즉, 예를 들어 커먼 레퍼런스 뷰 픽처는 디코딩단의 센터 뷰 제너레이션에 의해 생성된 센터 뷰 픽처일 수도 있고, 인코딩단으로부터 수신한 센터 뷰 픽처를 의미할 수 있다.

제 2 뷰 리제너레이션(53001)은 실시예들에 다른 수신한 스파스 뷰들 중 제 2 뷰잉 포지션에 대한 스파스 뷰(즉, 제 2 스파스 뷰, 또는 제 2 희소 뷰) (s2) 및 적어도 하나의 재생 뷰(예를 들어, 상술한 제 1 리제너레이티드 뷰(또는 제 1 재생성된 뷰) (r1) 및/또는 커먼 레퍼런스 뷰 픽처(예를 들어, 중심 뷰)에 기초하여 제 2 재생성된 뷰 픽처(v2)를 재생성한다.

이 때, 제 2 뷰 리제너레이션은, 실시예들에 따른 시그널링 정보 중 실시예들에 따른 리제너레이션 정보(regeneration information)에 기초하여 수행될 수 있다. 나아가, 실시예들에 따른 제 2 뷰 리제너레이션은, 리제너레이션 정보 중 제 1 리제너레이티드 뷰를 생성하기 위한 리제너레이션 정보의 일부 또는 전부의 시그널링 정보에 기초하여 수행될 수 있다.

예를 들어, 레퍼런스 뷰(reference view)(들)이 전달되었는지 여부, 레퍼런스 뷰의 생성 방법과 관련된 정보(즉, 제 1 뷰 리제너레이션과 관련된 정보로써, 제 1 뷰 리제너레이션의 뷰 재생성 방법 등), 레퍼런스 뷰의 위치 등에 관한 정보를 이용할 수 있다. 예를 들면, 실시예들에 따른 view_regeneration_method_type, num_ref_views, num_views_using_this_ref_view, viewing_position_picture_type, picture_id, view_regeneration_method_type 등이 이용될 수 있다.

따라서 도 53에서 도시된 예시는, 디코딩된 픽처들이 상술한 커먼 레퍼런스 뷰(c0), 제 1 스파스 뷰 픽처(s1) 및 제 2 스파스 뷰 픽처(s2)를 나타낸다. (decoded pics: c0, s1, s2)

여기서 실시예들에 따른 수신 장치는 수신 시그널링 정보로, v1에 대한 재생성과 관련된 리제너레이션 파라미터들 및 v2에 대한 재생성과 관련된 리제너레이션 파라미터들을 포함한다.

즉, v1에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 1 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처에 관한 정보(즉, s1에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (signaling : v1 regeneration - method, ref. pic (c0) / sparse pic (s1), output pic info (size, view position..))

또한 v2에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 2 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, c0 및/또는 v1에 관한 정보), 스파스 뷰 픽처에 관한 정보(즉, s2에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (signaling : v2 regeneration - reg. method (regeneration), ref. pic. (c0, v1, or both), output pic info (size, view position..) + v1 regeneration info.)

이 때 수신단에서는 전달 된 s2를 바탕으로 target view를 복원하기 위해 사용되는 reference view에 대한 정보가 필요하며, 이는 메타데이터를 통해 전달될 수 있다.

실시예들에 따른 제 1 뷰 리제너레이션 및 재생성된 뷰를 이용한 제 2 뷰 리제너레이션과 같은 구성으로 인해, 실시예들에 따른 수신 장치는 재생성된 뷰(regenerated view)들을 정확하고 효율적으로 생성할 수 있다. 또한, 실시예들에 따른 수신 장치는 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 생성하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처를 이용함으로써 적은 양의 데이터로 효율적으로 뷰들을 재생성할 수 있다.

또한, 실시예들에 따른 전송 장치는 실시예들에 따른 수신 장치의 제 1 뷰 리제너레이션 및 재생성된 뷰를 이용한 제 2 뷰 리제너레이션과 같은 구성으로 인해, 제 2 뷰포인트(또는 제 2 뷰잉 포지션)에 대한 픽처를 제공하기 위해 제 1 뷰포인트(또는 제 1 뷰잉 포지션)에 대한 픽처만을 전송함으로써 데이터 송신의 효율성을 높일 수 있고, 연산량을 감소시킬 수 있다.

전달되는 정보의 효율성을 높이기 위한 방법으로써 sparse view 간의 유사도를 줄이는 방법을 고려할 수 있다.

sparse view pruning 과정은 source view pruning과 같이 입력 영상 간 유사한 정보를 제거해주는 과정으로써 source view pruning 과정에서 남아있는 유사성을 제거하는 과정이다. 예를 들어 view 1과 view 2 사이에 공간적인 유사도가 높은 경우 view 1을 통해 view 2를 추정하는 것과 유사하게 각각의 공간 정보를 바탕으로 view 1을 통해 view 2를 추정할 수 있다. 이러한 추정 과정을 통해 sparse view 사이의 유사한 정보를 제거하고 남은 정보 (pruned sparse view: res_s2)를 전송하는 경우 sparse view s2를 전달할 때보다 높은 비트 효율로 정보를 전달할 수 있다.

실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)으로 제 1 스파스 뷰를 위한 제 1 프루닝(54000, 제 1 프루징부, 제 1 프루너), 제 2 스파스 뷰를 위한 제 2 프루닝(54001, 제 2 프루너, 제 2 프루닝부) 및 스파스 뷰 프루닝(54002, 스파스 뷰 프루닝부, sparse view pruning)을 포함할 수 있다. 실시예들에 따른 프루닝 스킴은 실시예들에 따른 인터-뷰 리던던시 제거부에서 수행될 수도 있다. 실시예들에 따른 프리-프로세싱부는 패킹/인코딩부(54003, packing/encoding)를 포함할 수 있다.

제 1 프루닝(54000)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 제 1 뷰잉 포지션에 대한 제 1 소스 뷰 픽처를 프루닝한다. 즉, 제 1 소스 뷰 픽처에 대한 리던던시를 제거하여 제 1 스파스 뷰 픽처(s1)를 생성한다. 제 1 스파스 뷰 픽처(s1)는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 여기서 제 1 스파스 뷰 픽처(s1)는 레퍼런스 스파스 뷰 픽처(s1)으로 호칭될 수도 있다.

제 2 프루닝(54001)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 제 2 뷰잉 포지션에 대한 제 2 소스 뷰 픽처를 프루닝한다. 즉, 제 2 소스 뷰 픽처에 대한 리던던시를 제거하여 제 2 스파스 뷰 픽처(s2)를 생성한다. 제 2 스파스 뷰 픽처(s2)는 제 2 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다.

스파스 뷰 프루닝(54002)은 실시예들에 따른 레퍼런스 스파스 뷰 픽처(s1)을 이용하여 상술한 제 2 스파스 뷰 픽처(s2)를 프루닝할 수 있다. 즉, 스파스 뷰 프루닝은, 이미 제 1 프루닝부 및/또는 제 2 프루닝부에 의해 프루닝된 각각의 제 1 스파스 뷰 픽처 및/또는 제 2 스파스 뷰 픽처에 대하여 프루닝할 수 있다. 다시 말해 제 2 스파스 뷰 픽처를 레퍼런스 스파스 뷰 픽처(s1)을 이용하여 다시 프루닝한 후 프루닝된 스파스 뷰 픽처(pruned sparse view, res_s2)를 생성한다.

패킹/인코딩(54003)은 실시예들에 따른 제 1 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처를 패킹 및/또는 인코딩할 수 있다. 여기서 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)도 함께 패킹 및/또는 인코딩할 수 있다. 패킹 및/또는 인코딩된 제 1 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처(및/또는 커먼 레퍼런스 뷰 픽처(c0))는 비트스트림 형태로 변환되어, 패킹/인코딩부에 의해 실시예들에 따른 디코더단으로 전송된다.

여기서, 실시예들에 따른 비디오 전송 방법은, 스파스 뷰 픽처들 내 포함된 제 2 뷰잉 포지션과 관련된 스파스 뷰 픽처에 기초하여, 스파스 뷰 픽처들 내 포함된 제 1 뷰잉 포지션과 관련된 레퍼런스 스파스 뷰 픽처(reference sparse view picture)를 프루닝(pruning)하는 단계, 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션이고, 레퍼런스 스파스 뷰 픽처를 프루닝하는 단계는 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 생성함; 및, 프루닝된 스파스 뷰 픽처로부터 레지듀얼(residual)를 검출하는 단계; 를 포함할 수 있다. 여기서, 프루닝된 스파스 뷰 픽처는 레지듀얼의 존재에 대응하여 패킹될 수 있다.

이러한 구성으로 인해, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 이러한 구성으로 인해, 실시예들에 따른 디코더단은 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

또한, 실시예들에 따른 인코더단은 복수의 스파스 뷰들 간의 에러를 다시 검출하여 프루닝함으로써 디코더단으로 하여금 해당 뷰잉 포지션에 대한 정확한 뷰를 생성할 수 있는 효과를 제공한다.

또한, 실시예들에 따른 전송 장치는 레지듀얼 디텍션부에 의해 프루닝된 스파스 뷰 픽처를 전송할지 여부를 결정하고, 프루닝된 스파스 뷰 픽처가 전송되었는지 여부를 나타내는 시그널링 정보를 함께 전송함으로써, 수신 장치의 연산 부담을 줄일 수 있다.

다시 말하면, 실시예들에 따른 뷰 리제너레이션은 스파스 뷰 리제너레이션(sparse view regeneration, 55000) 및 뷰 리제너레이션(view regeneration, 55001)을 수행할 수 있다. 도 55에서 나타난 실시예들에 따른 스파스 뷰 리제너레이션(sparse view regeneration, 55000) 및 뷰 리제너레이션(view regeneration, 55001)은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

실시예들에 따르면, 디코더 (또는 수신기)는 리제너레이트된 뷰 (v2 등)를 생성하기 위해 뷰 리제너레이션을 수행한다.

스파스 뷰 리제너레이션(sparse view regeneration, 55000)은, 실시예들에 따른 스파스 뷰들 중 제 1 뷰잉 포지션에 대한 레퍼런스 스파스 뷰 픽처(s1) 및/또는 제 2 뷰잉 포지션에 대한 프루닝된 스파스 뷰 픽처(res_s2)에 기초하여 제 2 뷰잉 포지션에 대한 재생성된 스파스 뷰 픽처(s2)를 생성한다. 레퍼런스 스파스 뷰 픽처(s1)는, 제 2 뷰잉 포지션에 대한 재생성된 스파스 뷰 픽처를 생성하기 위하여 기준이 되는 스파스 뷰 픽처를 의미할 수 있다. 프루닝된 스파스 뷰 픽처(res_s2)는 도 54에서 상술한 프루닝된 스파스 뷰 픽처(res_s2)를 의미할 수 있다. 즉, 프루닝된 스파스 뷰 픽처(res_s2)는 제 2 뷰잉 포지션에 대한 스파스 뷰를 생성하기 위하여 사용되는 잔차 정보를 포함하는 뷰 픽처일 수 있다.

여기서, 실시예들에 따른 스파스 뷰 리제너레이션(55000)은 관련 시그널링 정보에 기초하여 제 2 뷰잉 포지션에 대한 재생성된 스파스 뷰 픽처(s2)를 생성할 수 있다. 여기서, 관련 시그널링 정보는 실시예들에 따른 리제너레이션 정보(regeneration information) 및/또는 레퍼런스 뷰 정보(reference view information)의 일부 또는 전부에 포함될 수 있다. 예를 들어, 관련 시그널링 정보는 도 39내지 도 40에서 설명한 target_view_id, component_id, component_type, pruned_sparse_view_present_flag, reference_sparse_view_present_flag_sprese_view_present, output_sparse_view_id, pruned_sparse_view_id 및 reference_sparse_view_id 등과 같은 정보의 일부 또는 전부를 포함할 수 있다.

뷰 리제너레이션(55001)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및/또는 상술한 재생성된 제 2 재생성된 스파스 뷰 픽처(s2)에 기초하여 제 2 뷰잉 포지션에 대한 타겟 뷰(또는 재생성된 뷰, regenerated view) (v2)를 생성한다.

도55 내지 도58 에서 설명한 실시예들에 따른 수신 장치 내의 구성(실시예들에 따른 뷰 리제너레이션 및/또는 스파스 뷰 리제너레이션 등) 및 대응하는 동작의 각 구성은 상호 보완/변형/결합이 가능하다.

따라서 도 55에서 도시된 예시는, 디코딩된 픽처들이 상술한 커먼 레퍼런스 뷰(c0), 제 1 스파스 뷰 픽처(s1) 및 프루닝된 스파스 뷰 픽처(res_s2)를 나타낸다. (decoded pics: c0, s1, res_s2)

여기서 실시예들에 따른 수신 장치는 수신 시그널링 정보로, s2에 대한 재생성과 관련된 리제너레이션 파라미터들 및 v2에 대한 재생성과 관련된 리제너레이션 파라미터들을 포함한다.

즉, s2에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 s2 리제너레이션 방법, 레퍼런스 스파스 뷰 픽처에 관한 정보(즉, s1에 관한 정보), 프루닝된 스파스 뷰 픽처에 관한 정보(즉, res_s2에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (signaling : s2 regeneration - method, ref. sparse pic (s1), pruned sparse pic (res_s2), output pic info (size, view position..))

또한 v2에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 2 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처 재생성에 관한 정보(즉, s2에 관한 재생성 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (v2 regeneration - reg. method, ref. pic. (c0), regen. sparse view (s2), output pic info (size, view position..) + s2 regeneration info.)

실시예들에 따른 스파스 뷰 프루닝(sparse view pruning)을 통해 생성된 스파스 뷰(sparse view)의 경우 수신기에서는 스파스 뷰 (sparse view)를 복원하는 스파스 뷰 리제너레이션(sparse view regeneration) 과정이 필요하다. 예를 들어, 첫째, 레퍼런스 스파스 뷰 s1(reference sparse view s1)과 위치 정보 (v1과 v2 위치정보)를 기반으로 s2를 추정할 수 있으며, res_s2를 이용해 s2를 복원할 수 있다. 둘째, 복원된 정보를 바탕으로 reference view를 이용해 v2를 복원할 수 있다.

따라서 v2 복원을 위해서는 스파스 뷰 리제너레이션(sparse view regeneration) 수행 여부, 레퍼런스 스파스 뷰(reference sparse view) 정보 (s1 및 위치정보), 타겟 스파스 뷰(target sparse view) 정보 (res_s2 및 위치 정보), 스파스 뷰 리제너레이션(sparse view regeneration) 방법, v2 복원을 위한 레퍼런스 뷰(reference view) (c0) 에 대한 정보가 전달되어야 한다.

이 때 v1에 대한 복원 정보 대신 스파스 뷰 리제너레이션(sparse view regeneration) 정보가 전달되며, v1, s1 대신 s1, res_s2가 전달된다는 점에서 비트 효율을 높일 수 있다. (특히 viewport dependent processing에서 효과가 크게 나타날 수 있다. )

이러한 실시예들에 따른 스파스 뷰 리제너레이션부의 구성으로 인해, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 이러한 구성으로 인해, 실시예들에 따른 디코더단은 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

구체적으로, 제 1 뷰잉포지션에 대한 타겟 뷰 관련 정보 대신 스파스 뷰 리제너레이션(sparse view regeneration) 정보가 전달되게 함으로써, 비트 효율을 높일 수 있다. (특히 viewport dependent processing에서 효과가 크게 나타날 수 있다.)

residual 이 없는 경우 s1으로 추정 가능하다고 판단하고 데이터 전송 하지 않을 수 있다.

sparse view pruning의 효과가 극대화 되는 경우로써 pruned spare view를 전달하지 않는 경우를 고려할 수 있다. 즉, residual 이 없는 경우 s1으로 추정 가능하다고 판단하고 데이터 전송 하지 않고 수신단에서는 s1만을 가지고 s2를 추정하는 것이다. 판단 기준으로써는 블록 내 정보 분포도, 주파수 분석을 통한 정보량 판단 등을 고려할 수 있으며 임계값을 기반으로 전송 여부를 판단하거나 혹은 정보가 적은 경우 quantization 등을 통해 정보량을 더 줄일 수 있다.

다시 말하면, 실시예들에 따른 인코더 프리-프로세싱부(encoder pre-processing modules)의 프루닝 스킴(pruning scheme)으로 제 1 스파스 뷰를 위한 제 1 프루닝(56000, 제 1 프루징부, 제 1 프루너), 제 2 스파스 뷰를 위한 제 2 프루닝(56001, 제 2 프루너, 제 2 프루닝부), 스파스 뷰 프루닝(56002, 스파스 뷰 프루닝부, sparse view pruning) 및/또는 레지듀얼 검출기(56003, residual detection, 레지듀얼 디텍션)를 포함할 수 있다. 실시예들에 따른 프루닝 스킴은 실시예들에 따른 인터-뷰 리던던시 제거부에서 수행될 수도 있다. 실시예들에 따른 프리-프로세싱부는 패킹/인코딩부(54003, packing/encoding)를 포함할 수 있다.

제 1 프루닝(56000)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 제 1 뷰잉 포지션에 대한 제 1 소스 뷰 픽처를 프루닝한다. 즉, 제 1 소스 뷰 픽처에 대한 리던던시를 제거하여 제 1 스파스 뷰 픽처(s1)를 생성한다. 제 1 스파스 뷰 픽처(s1)는 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 여기서 제 1 스파스 뷰 픽처(s1)는 레퍼런스 스파스 뷰 픽처(s1)으로 호칭될 수도 있다.

제 2 프루닝(56001)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 제 2 뷰잉 포지션에 대한 제 2 소스 뷰 픽처를 프루닝한다. 즉, 제 2 소스 뷰 픽처에 대한 리던던시를 제거하여 제 2 스파스 뷰 픽처(s2)를 생성한다. 제 2 스파스 뷰 픽처(s2)는 제 2 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다.

스파스 뷰 프루닝(56002)은 실시예들에 따른 레퍼런스 스파스 뷰 픽처(s1)을 이용하여 상술한 제 2 스파스 뷰 픽처(s2)를 프루닝할 수 있다. 즉, 스파스 뷰 프루닝은, 이미 제 1 프루닝부 및/또는 제 2 프루닝부에 의해 프루닝된 각각의 제 1 스파스 뷰 픽처 및/또는 제 2 스파스 뷰 픽처에 대하여 프루닝할 수 있다. 다시 말해 제 2 스파스 뷰 픽처를 레퍼런스 스파스 뷰 픽처(s1)을 이용하여 다시 프루닝한 후 프루닝된 스파스 뷰 픽처(pruned sparse view, res_s2)를 생성한다. 이 때, 프루닝된 스파스 뷰 픽처(res_s2)는 실시예들에 따른 디코더단으로 전송될 수도 있고 전송되지 않을 수도 있다. 프루닝된 스파스 뷰 픽처(res_s2)가 전송될지 전송되지 않을지 여부는 레지듀얼 디텍션부(54003)가 결정할 수 있다. 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부는 관련 시그널링 정보를 이용하여 시그널링될 수 있다. 예를 들어, 실시예들에 따른 수신 장치는 도 39에서 pruned_sparse_view_present_flag 시그널링 정보를 통해, 상술한 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부를 알 수 있다.

레지듀얼 디텍션부(54003)는, 프루닝된 스파스 뷰 픽처(res_s2)가 전송될지 전송되지 않을지 여부를 결정할 수 있다. 즉, 레지듀얼(residual)이 없는 경우 상술한 제 2 소스 뷰 픽처가 디코더단에 의해 제 1 스파스 뷰 픽처(s1)를 이용하여 추정 가능하다고 판단하고 데이터 전송 하지 않을 수 있다. 즉, 디코더단에서 제 1 스파스 뷰 픽처(s1)만으로 제 2 스파스 뷰 픽처(s2)를 추정할 수 있으므로 실시예들에 따른 프루닝된 스파스 뷰 픽처를 전송하지 않을 수 있다. 판단 기준으로써는 블록 내 정보 분포도, 주파수 분석을 통한 정보량 판단 등을 고려할 수 있으며 임계값을 기반으로 전송 여부를 판단하거나 혹은 정보가 적은 경우 양자화(quantization) 등을 통해 정보량을 더 줄일 수 있다.

패킹/인코딩(54004)은 실시예들에 따른 제 1 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처를 패킹 및/또는 인코딩할 수 있다. 여기서 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)도 함께 패킹 및/또는 인코딩할 수 있다. 패킹 및/또는 인코딩된 제 1 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처(및/또는 커먼 레퍼런스 뷰 픽처(c0))는 비트스트림 형태로 변환되어, 패킹/인코딩부에 의해 실시예들에 따른 디코더단으로 전송된다.

이러한 제 1 프루닝부, 제 2 프루닝부 및/또는 제 1 프루닝부로부터 생성된 스파스 뷰와 제 2 프루닝부로부터 생성된 스파스 뷰를 이용한 스파스 뷰 프루닝의 구성으로 인해, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 이러한 구성으로 인해, 실시예들에 따른 디코더단은 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

또한, 실시예들에 따른 인코더단은 레지듀얼 디텍션부를 이용하여 복수의 스파스 뷰들 간의 에러를 다시 검출하여 프루닝함으로써 디코더단으로 하여금 해당 뷰잉 포지션에 대한 정확한 뷰를 생성할 수 있는 효과를 제공한다.

또한, 레지듀얼 디텍션의 이러한 구성으로 인해 실시예들에 따른 전송 장치는 불필요한 데이터 전송을 피하고 수신단으로 하여금 불필요한 연산 과정을 방지할 수 있어 스파스 뷰 프루닝(sparse view pruning)의 효과가 극대화될 수 있다.

실시예들에 따른 뷰 리제너레이션은 스파스 뷰 리제너레이션(sparse view regeneration, 57000) 및 뷰 리제너레이션(view regeneration, 57001)을 수행할 수 있다. 도 57에서 나타난 실시예들에 따른 스파스 뷰 리제너레이션(sparse view regeneration, 57000) 및 뷰 리제너레이션(view regeneration, 57001)은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

실시예들에 따른 스파스 뷰 리제너레이션(57000)은 실시예들에 따른 프루닝된 스파스 뷰 픽처(res_s2) 및 레퍼런스스파스 뷰 픽처(s1)을 이용하여 재생성된 스파스 뷰 픽처(s2)를 생성할 수 있다. 여기서 레퍼런스 스파스 뷰 픽처는 수신한 스파스 뷰 픽처들 내에 포함된, 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 또한, 재생성된 스파스 뷰 픽처(s2)는 제 2 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 또한, 프루닝된 스파스 뷰 픽처(pruned sparse view, res_s2)는 도 56에서 설명한 프루닝된 스파스 뷰 픽처를 나타낼 수 있다. 재생성된 스파스 뷰 픽처(s2)는 제 2 뷰잉 포지션에 대한 타겟 뷰를 생성하기 위한, 제 2 뷰잉 포지션에 대한 스파스 뷰를 의미한다. 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부는 관련 시그널링 정보를 이용하여 시그널링될 수 있다. 예를 들어, 실시예들에 따른 수신 장치는 도 39에서 pruned_sparse_view_present_flag 시그널링 정보를 통해, 상술한 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부를 알 수 있다.

여기서, 실시예들에 따른 스파스 뷰 리제너레이션(57000)은 관련 시그널링 정보에 기초하여 제 2 뷰잉 포지션에 대한 재생성된 스파스 뷰 픽처(s2)를 생성할 수 있다. 여기서, 관련 시그널링 정보는 실시예들에 따른 리제너레이션 정보(regeneration information) 및/또는 레퍼런스 뷰 정보(reference view information)의 일부 또는 전부에 포함될 수 있다. 예를 들어, 관련 시그널링 정보는 도 39내지 도 40에서 설명한 target_view_id, component_id, component_type, pruned_sparse_view_present_flag, reference_sparse_view_present_flag_sprese_view_present, output_sparse_view_id, pruned_sparse_view_id 및 reference_sparse_view_id 등과 같은 정보의 일부 또는 전부를 포함할 수 있다.

실시예들에 따른 뷰 리제너레이션(57001)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 재생성된 스파스 뷰 픽처(s2)를 이용하여 제 2 뷰잉 포지션에 대한 재생성된 뷰를 생성할 수 있다. 예를 들어, 뷰 리제너레이션(57001)은 센터 뷰 픽처(c0)와 재생성된 스파스 뷰 픽처(s2)를 이용하여 제 2 뷰잉 포지션에 대한 뷰를 생성할 수 있다.

따라서 실시예들에 따른 디코딩부(또는 포스트-디코딩 프로세싱부) 또는 수신 장치는 제 2 뷰잉 포지션에 대한 타겟 뷰를 생성하기 위하여 두 가지 동작을 수행할 수 있다. 첫째, 스파스 뷰 리제너레이션부(57000)는 수신한 스파스 뷰 픽처들 중 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 나타내는 레퍼런스 스파스 뷰 픽처(s1)를 이용하여 제 2 뷰잉 포지션에 대한 스파스 뷰 픽처(즉, 재생성된 스파스 뷰 픽처, s2)를 생성한다. 이 때, 스파스 뷰 리제너레이션부(57000)는 스파스 뷰 픽처들 내 포함된 프루닝된 스파스 뷰 픽처(res_s2)를 더 이용할 수 있다. 둘재, 스파스 뷰 리제너레이션부(57000)가 재생성된 스파스 뷰 픽처(s2)를 생성하면, 재생성된 스파스 뷰 픽처(s2)와 커먼 레퍼런스 뷰 픽처(c0)를 이용하여 제 2 뷰잉 포지션에 대한 재생성된 뷰(v2)를 생성할 수 있다.

따라서 도 57에서 도시된 예시는, 디코딩된 픽처들이 상술한 커먼 레퍼런스 뷰(c0), 제 1 스파스 뷰 픽처(s1) 및/또는 프루닝된 스파스 뷰 픽처(res_s2)를 나타낸다. (decoded pics: c0, s1, (res_s2))

즉, s2에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 s2 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, v1에 관한 정보), 스파스 뷰 픽처에 관한 정보(즉, res_s2에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. 여기서, 프루닝된 스파스 뷰 픽처는 전송될 수도 있고 전송되지 않을 수도 있다. (s2 regeneration - reg. method (type), ref. sparse pic (s1), pruned sparse pic (res_s2), output pic info (size, view position..) (recommended)))

또한 v2에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 2 리제너레이션 방법, 레퍼런스 스파스 뷰 픽처에 관한 정보(즉, s1에 관한 정보), 스파스 뷰 픽처 재생성에 관한 정보(즉, s2에 관한 재생성 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (v2 regeneration - reg. method (type), ref. pic. (c0), regen. sparse view (s2), output pic info (size, view position..) + s2 regeneration info.)

sparse view pruning 및 residual detection 과정을 통해 pruned sparse view을 전달 혹은 전달하지 않은 경우, 수신기에서는 전달된 정보 및 수신기 성능을 기반으로 다음과 같이 서로 다른 동작을 할 수 있다.

1. 다이렉트 스파스 뷰 리제너레이션(direct sparse view regeneration)

스파스 뷰 리제너레이션(sparse view regeneration) 을 통해 타겟 스파스 뷰(target sparse view) (s2)를 복원한 후, 뷰 리제너레이션(view regeneration) 을 통해 타겟 뷰(target view)를 복원할 수 있다.

이 때, 프루닝된 스파스 뷰(pruned sparse view)가 전달되는지 여부를 수신기에 전달함으로써 스파스 뷰 리제너레이션부(sparse view regeneration)가 추가 작업을 수행할지 여부를 결정할 수 있다.

이러한 스파스 뷰 리제너레이션부 및 재생성된 스파스 뷰에 기초한 뷰 리제너레이션과 같은 구성으로 인해, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 이러한 구성으로 인해, 실시예들에 따른 디코더단은 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

또한, 실시예들에 따른 인코더단은, 수신기의 뷰 리제너레이션부 및 재생성된 스파스 뷰에 기초한 뷰 리제너레이션과 같은 구성으로 인해 해당 뷰잉 포지션에 대한 정확한 뷰를 생성할 수 있는 효과를 제공한다. 또한, 실시예들에 따른 디코더단은 적은 양의 데이터의 수신으로도 실제와 같은 가상 공간을 생성함으로써 비트 효율을 높일 수 있다.

실시예들에 따른 뷰 리제너레이션은 제 1 뷰 리제너레이션(58000), 스파스 뷰 에스티메이션(sparse view estimation, 58001) 및 제 2 뷰 리제너레이션(58002)을 수행할 수 있다. 도 58에서 나타난 실시예들에 따른 제 1 뷰 리제너레이션(58000) 및 제 2 뷰 리제너레이션(58002)은 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다.

제 1 뷰 리제너레이션(58000)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 제 1 스파스 뷰(s1)를 이용하여 임시 생성된 뷰(temporally generated view, v1)을 생성할 수 있다. 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)는 실시예들에 따른 센터 뷰 제너레이션부에 의해 생성된 센터 뷰이거나, 수신된 픽처들 내에 포함된 센터 뷰일 수 있다. 제 1 스파스 뷰 픽처는 실시예들에 따른 스파스 뷰 픽처들 내에 포함되고, 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 여기서, 임의 생성된 뷰(v1)는 제 1 뷰잉 포지션에 대한 타겟 뷰 픽처를 의미할 수 있다.

스파스 뷰 에스티메이션(58001)은 실시예들에 따른 임시 생성된 뷰(v1) 픽처에 기초하여 제 2 뷰잉 포지션에 대한 추측된 스파스 뷰 픽처(s2, estimated sparse view)를 생성(또는 복원)할 수 있다. 즉, 임시 생성된 뷰(v1)로부터 제 제 2 뷰잉 포지션에 대한 추측된 스파스 뷰 픽처(s2)를 추측한다. 이 때, 스파스 뷰 에스티메이션은 실시예들에 따른 프루닝된 스파스 뷰 픽처(res_s2)를 이용할 수 있다. 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부는 관련 시그널링 정보를 이용하여 시그널링될 수 있다. 예를 들어, 실시예들에 따른 수신 장치는 도 39에서 pruned_sparse_view_present_flag 시그널링 정보를 통해, 상술한 프루닝된 스파스 뷰 픽처(res_s2)가 수신되는 픽처들에 포함되어 있는지 여부를 알 수 있다. 프루닝된 스파스 뷰 픽처(res_s2)는 도 54 내지 도 57에서 설명한 실시예들에 따른 프루닝된 스파스 뷰 픽처를 의미한다.

여기서, 실시예들에 따른 스파스 뷰 리제너레이션(58001)은 관련 시그널링 정보에 기초하여 제 2 뷰잉 포지션에 대한 재생성된 스파스 뷰 픽처(s2)를 생성할 수 있다. 여기서, 관련 시그널링 정보는 실시예들에 따른 리제너레이션 정보(regeneration information) 및/또는 레퍼런스 뷰 정보(reference view information)의 일부 또는 전부에 포함될 수 있다. 예를 들어, 관련 시그널링 정보는 도 39내지 도 40에서 설명한 target_view_id, component_id, component_type, pruned_sparse_view_present_flag, reference_sparse_view_present_flag_sprese_view_present, output_sparse_view_id, pruned_sparse_view_id 및 reference_sparse_view_id 등과 같은 정보의 일부 또는 전부를 포함할 수 있다. 또한, 실시예들에 따른 제 1 뷰잉 포지션에 대한 레퍼런스 뷰 정보를 포함할 수도 있다.

제 2 뷰 리제너레이션(58002)는 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 추측된 스파스 뷰 픽처(s2)를 이용하여 제 2 뷰잉 포지션에 대한 재생성된 뷰(regenerated view, v2)를 생성(또는 복원)할 수 있다.

실시예들에 따른 수신한 픽처들은 실시예들에 따른 커먼 레퍼런스 뷰 픽처, 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처 및/또는 프루닝된 스파스 뷰 픽처(res_s2)를 포함할 수 있다.

따라서 도 57에서 도시된 예시는, 디코딩된 픽처들이 상술한 커먼 레퍼런스 뷰(c0), 제 1 스파스 뷰 픽처(s1) 및/또는 프루닝된 스파스 뷰 픽처(res_s2)를 나타낸다. (decoded pics: c0, s1, res_s2(임의))

여기서 실시예들에 따른 수신 장치는 수신 시그널링 정보로, v1에 대한 재생성과 관련된 리제너레이션 파라미터들, s2 재생성과 관련된 파라미터들 및 v2에 대한 재생성과 관련된 리제너레이션 파라미터들을 포함한다.

즉, v1에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 v1 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처에 관한 정보(즉, s1에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (signaling : v1 regeneration - reg. method (type), ref. pic (c0), sparse pic (s1), output pic info (size, view position..))

또한 s2에 대한 재생성과 관련된 리제너레이션 파라미터들로 스파스 뷰 리제너레이션 방법(에스티메이션), 레퍼런스 스파스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처 재생성에 관한 정보(즉, s2에 관한 재생성 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. 또한, s2 리제너레이션에 관한 정보도 포함할 수 있다. (s2 regeneration - reg. method (type), ref. pic (v1), pruned sparse pic (res_s2), output pic info (size, view position..) + v1 regeneration informatoin)

또한 v2에 대한 재생성과 관련된 리제너레이션 파라미터들로 리제너레이션 방법, 레퍼런스 스파스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처 재생성에 관한 정보(즉, s2에 관한 재생성 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (v2 regeneration - reg. method (type), ref. pic. (c0), regen. sparse pic (s2), output pic info (size, view position..) + s2 regeneration info)

2. 스파스 뷰 에스티메이션(sparse view estimation)

sparse view를 복원하는 방법으로써 reference view로 부터 sparse view를 추정하는 방법을 고려할 수 있다. 즉, 1) sparse view s1을 기반으로 v1을 추정한 후 2) 추정된 view v1과 pruned sparse view res_s2를 이용해 sparse view 2를 복원하고 3) 복원된 s2를 바탕으로 target view v2를 복원할 수 있다.

이러한 수신기의 제 1 뷰 리제너레이션, 임시 재생성된 뷰를 이용한 스파스 뷰 에스티메이션 및/또는 제 2 뷰 리제너레이션 구성으로 인해, 실시예들에 따른 인코더단은 송신할 스파스 뷰 픽처들의 수를 줄일 수 있고, 송신할 데이터의 양을 줄일 수 있다. 또한 이러한 구성으로 인해, 실시예들에 따른 디코더단은 수신하는 스파스 뷰 픽처들의 수를 줄일 수 있어, 수신단에서의 부담을 줄일 수 있다.

실시예들에 따른 뷰 리제너레이션은 뷰 리제너레이션(59000) 및 뷰 신테시스(59001)을 수행할 수 있다. 도 59에서 나타난 실시예들에 따른 뷰 리제너레이션(58000) 및 뷰 신테시스(58002)는 상술한 실시예들에 따른 뷰 리제너레이션(또는 뷰 재생성부)에 포함되는 블록(또는 동작)을 의미할 수 있다. 도 59에서 설명하는 뷰 리제너레이션은 뷰 재생성, 뷰 재생성부, 뷰 리제너레이팅, 뷰 리제너레이션 모듈 등으로 호칭될 수 있다. 또, 도 59에서 설명하는 뷰 신테시스는 뷰 합성, 뷰 합성부, 뷰 합성기, 뷰 신테사이저, 뷰 신디사이저 등으로 호칭될 수도 있다.

뷰 리제너레이션(59000)은 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 제 1 스파스 뷰 픽처(s1)를 이용하여 실시예들에 따른 제 1 뷰잉 포지션에 대한 재생성된 뷰(v1) 픽처를 생성할 수 있다. 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0)는 실시예들에 따른 센터 뷰 제너레이션부에 의해 생성된 센터 뷰이거나, 수신된 픽처들 내에 포함된 센터 뷰일 수 있다. 제 1 스파스 뷰 픽처는 실시예들에 따른 스파스 뷰 픽처들 내에 포함되고, 제 1 뷰잉 포지션에 대한 스파스 뷰 픽처를 의미한다. 여기서, 재생성된 뷰 픽처(v1)는 제 1 뷰잉 포지션에 대한 타겟 뷰 픽처를 의미할 수 있다.

뷰 신테시스(59001)는 실시예들에 따른 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 제 1 뷰잉 포지션에 대한 재생성된 뷰(v1) 픽처를 이용하여 제 2 뷰잉 포지션에 대한 재생성된 뷰(또는 제 2 뷰잉 포지션에 대한 합성된 뷰) (v2)를 생성할 수 있다. 뷰 신테시스는 커먼 레퍼런스 뷰 픽처(c0) 및 실시예들에 따른 제 1 뷰잉 포지션에 대한 재생성된 뷰를 이용하여 제 2 뷰잉 포지션에 대한 합성된 뷰를 실시예들에 따른 뷰 합성(view synthesis) 동작을 통해 합성할 수도 있고, 실시예들에 따른 뷰 재생성(view regeneration) 동작을 통해 재생성될 수도 있다.

여기서, 실시예들에 따른 뷰 신테시스(58001)는 관련 시그널링 정보에 기초하여 제 2 뷰잉 포지션에 대한 재생성된 뷰 픽처(s2)를 합성 수 있다. 여기서, 관련 시그널링 정보는 실시예들에 따른 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)의 일부 또는 전부에 포함될 수 있다. 예를 들어, 관련 시그널링 정보는 도 39내지 도 40에서 설명한 ref_view_systhesis_method_type, view_synthesis_parameter, viewing_position_id, sparse_view_present_flag, 등과 같은 정보의 일부 또는 전부를 포함할 수 있다.

따라서 도 58에서 도시된 예시는, 디코딩된 픽처들이 상술한 커먼 레퍼런스 뷰(c0), 제 1 스파스 뷰 픽처(s1) 및/또는 프루닝된 스파스 뷰 픽처(res_s2)를 나타낸다. (decoded pics: c0, s1, res_s2(임의))

즉, v1에 대한 재생성과 관련된 리제너레이션 파라미터들로 제 v1 리제너레이션 방법, 레퍼런스 뷰 픽처에 관한 정보(즉, c0에 관한 정보), 스파스 뷰 픽처에 관한 정보(즉, s1에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. (signaling : v1 regeneration - method, ref. pic (c0), sparse pic (s1), output pic info (size, view position..))

또한 s2에 대한 재생성과 관련된 리제너레이션 파라미터들로 스파스 뷰 리제너레이션 방법(뷰 합성), 레퍼런스 스파스 뷰 픽처에 관한 정보(즉, c0, v1에 관한 정보), 출력 픽처에 대한 정보(사이즈, 뷰 포지션 정보 등)을 포함한다. 또한, v1 리제너레이션에 관한 정보도 포함할 수 있다. (v2 regeneration - reg. method (v synthesis), ref. pic. (c0, v1), output pic info (size, view position..) + v1 regeneration info)

스파스 뷰 프루닝(sparse view pruning)및 레지듀얼 디텍션(residual detection)과정을 통해 pruned sparse view을 전달 혹은 전달하지 않은 경우, 수신기에서는 전달된 정보 및 수신기 성능을 기반으로 다음과 같이 서로 다른 동작을 할 수 있다.

3. 뷰 합성(view synthesis, 뷰 신테시스)

스파스 뷰 프루닝(sparse view pruning)이 수행된 경우 v1 과 v2의 간의 유사성이 매우 높다는 것을 가정할 수 있으며, 이 경우 수신기에서는 스파스 뷰 리제너레이션(sparse view regeneration)과정을 거치지 않고 복원된 v1으로부터 v2를 합성하는 방법을 수행할 수 도 있다.

여기서, 실시예들에 따른 비디오 수신 방법은, 센터 뷰 픽처 및 스파스 뷰 픽처들 내에 포함된 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰 픽처에 기초하여, 제 1 뷰잉 포지션과 관련된 제 1 재생성된 뷰를 생성하는 단계 및, 제 1 재생성된 픽처 및 센터 뷰 픽처에 기초하여, 제 2 뷰잉 포지션과 관련된 제 2 재생성된 픽처를 생성하는 단계를 수행할 수 있다. 여기서, 제 2 뷰잉 포지션은 제 1 뷰잉 포지션과 다른 뷰잉 포지션일 수 있다.

실시예들에 따른 비디오 수신 방법 및 장치는, 이러한 뷰 리제너레이션 및 재생성된 뷰를 이용한 뷰 신테시스 구성으로 인해 서로 다른 뷰잉 포지션에 대한 뷰들을 적은 양의 데이터로 재생성 및 합성할 수 있어 송수신 효율을 높일 수 있다. 이 경우, 추가적인 뷰 재생성 동작을 하지 않고도 뷰 합성을 수행할 수 있어 수신 장치의 뷰 생성/합성 속도를 증가시킬 수 있다.

구체적으로, 도 60(A)는 실시예들에 따른 비디오 전송 장치의 전체적인 블록도를 나타낸다.

실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션부(60000, rotation/projection, 또는 로테이션/프로젝션), 3DoF+ 프리프로세싱부(60001, 3DoF+ preprocessing, 또는 3DoF+ 프리프로세싱) 및/또는 인코딩부(60002, encoder, 또는 인코더)를 포함한다. 여기서, 인코더 프리-프로세싱부는 인코더 프리-프로세싱 모듈, 인코더단, 인코딩부로 호칭될 수도 있고, 비디오 전송 장치를 구성하는 장치를 포괄적으로 호칭하는 용어를 의미할 수 있다. 즉, 인코더 프리-프로세싱부는 상술한 비디오 전송 장치에 포함된 구성들인 인터-뷰 리던던시 제거부(Inter-view redundancy removal), 패킹부(Packing) 및/또는 인코더부 등을 포함할 수 있다.

실시예들에 따른 로테이션/프로젝션부(60000, 또는 로테이팅/프로젝팅)는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 회전 및/또는 투사한다. 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)이 회전 및/또는 투사 될 수 있다. 로테이터/프로젝터의 출력은 실시예들에 따라 소스 뷰 픽쳐(들)이라고 지칭 될 수 있는 픽쳐(텍스처/깊이) 및/또는 회전/투영 된 픽쳐이다.

실시예들에 따른 로테이션/프로젝션부(60000)는 도 27 및/또는 도 41에서 설명한 로테이션/프로젝션부(27001, 41000)를 의미할 수 있다. 또한, 로테이션/프로젝션부는 실시예들에 따라 소스 뷰 픽쳐 및/또는 회전 및/또는 투사 동작과 관련된 프로젝션 파라미터들(projection parameters)을 더 생성할 수 있다.

3DoF+ 프리프로세싱부(60001, 3DoF+ preprocessing, 또는 3DoF+ 프리프로세싱, 3DoF+ 프리프로세서)은 로테이션/프로젝션부(60000)에 의해 회전 및 투사된 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)을 수신하고, 수신한 다중 구형 비디오/이미지(텍스처/깊이)의 픽처(들) 간의 리던던시를 제거하거나 이들을 패킹(packing)할 수 있다. 예를 들어, 3DoF+ 프리프로세싱부는 실시예들에 따른 복수의 뷰잉 포지션(viewing position)들에 대한 비디오 시퀀스(video sequence)들을 수신하여 비디오 시퀀스에 포함된 복수의 뷰잉 포지션(viewing position)들에 대한 인접한 뷰 간에 리던던시(redundancy)를 제거하는 인터-뷰 리던던시 제거 단계를 수행할 수 있다. 또한, 인터-뷰 리던던시 제거 단계로부터 생성된 픽처들(텍스쳐 픽쳐, 뎁스 픽쳐, 텍스쳐 패치 및/또는 텍스쳐 레지듀얼)을 패킹하여 하나 또는 그 이상의 패킹된 픽처들을 생성할 수 있다.

3DoF+ 프리프로세싱부(60001)는 프리프로세싱 메타데이터(preprocessing metadata)를 생성할 수 있다. 프리프로세싱 메타데이터는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information)를 포함할 수 있다. 또한, 프리프로세싱 메타데이터는 실시예들에 따른 패킹 메타데이터(packing metadata) 및/또는 리컨스트럭션 파라미터들(reconstruction parameters)을 포함할 수 있다. 예를 들어, 프리프로세싱 메타데이터는 도 39 및/또는 도 40에서 나타난 시그널링 정보들 또는 파라미터들의 전부 또는 일부를 포함할 수 있다.

3DoF+ 프리프로세싱부는 도 41에서 설명한 3DoF+ 프리프로세싱부를 의미할 수 있다. 또한, 실시예들에 따른 3DoF+ 프리프로세싱부는 도 46, 도 48, 도 50, 도 52, 도 54 및/또는 도 56에 따른 인코더-프리 프로세싱부를 포함할 수 있다. 구체적으로, 3DoF+ 프리프로세싱부는 도 46, 도 48, 도 50, 도 52, 도 54 및/또는 도 56에 따른 제 1 프루닝(46000, 48000), 제 2 프루닝(46001, 48002), 인코더단의 뷰 리제너레이션(48001), 제 1 스파스 뷰를 위한 프루닝(52000), 제 2 스파스 뷰를 위한 제 1 프루닝(52001), 제 2 스파스 뷰를 위한 제 2 프루닝(52002, 54001), 스파스 뷰 셀렉션(52003), 제 1 스파스 뷰를 위한 제 1 프루닝(54000), 스파스 뷰 프루닝(54002)을 포함할 수 있다.

인코딩부(60002, Encodings)는 예를 들어, 패킹된 픽처 및/또는 센터 뷰 제너레이션 정보, 레퍼런스 뷰 정보, 리제너레이션 정보, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보(뷰 신테시스 레코멘데이션 정보)를 포함하는 시그널링 정보를 인코딩한다. 실시예들에 따르면, 인코딩된 데이터는 비트 스트림 (들)의 포맷으로서 전송된다.

실시예들에 따르면, 3DoF+ 프리프로세싱부는 회전/투영, 센터 뷰 제너레이션, 인터미디에이트 뷰 합성(중간 뷰 합성), 프루닝, 희소(스파스) 뷰 프루닝, 패킹 및/또는 인코딩을 포함하여 전술 한 바와 같은 동작을 수행한다. 또한, 예를 들어 3DoF+ 프리프로세싱부는 도 27 및 도 27과 관련된 명세서의 단락에서 설명한 전처리기(인코더-프리프로세싱부)에 따른 동작을 수행할 수 있다. 또한, 실시예들에 따르면, 3DoF+ 프리프로세싱부는 도 41 및 도 41과 관련된 명세서의 단락에서 설명한 전송 장치에 따른 동작을 수행할 수 있다.

구체적으로, 도 60(B)는 실시예들에 따른 비디오 전송 장치의 전체적인 블록도를 나타낸다. 실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션부(60000, rotation/projection, 또는 로테이션/프로젝션), 3DoF+ 프리프로세싱부(60001, 3DoF+ preprocessing, 또는 3DoF+ 프리프로세싱) 및/또는 인코딩부(60002, encoder, 또는 인코더)를 포함한다.

실시예들에 따른 비디오 전송 장치(또는 인코더 프리-프로세싱부, 인코딩부, 인코더부, 인코딩단)는 실시예들에 따른 로테이션/프로젝션(60010, rotation/projection)부, 센터 뷰 생성부(60011, center view genearation module, 센터 뷰 제너레이터), 중간 뷰 합성부(60012, intermediate view synthesizer, 인터미디에이트 뷰 신테사이저), 프루닝부(60013, pruner, 프루너), 스파스 뷰 프루닝부(60014, sparse view pruner, 스파스 뷰 프루너), 패커(60015, packer) 및/또는 인코딩부(60016, encoder, 인코더)를 포함한다.

실시예들에 따른 로테이션/프로젝션부(60010) (또는 로테이팅/프로젝팅)는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 회전 및/또는 투사한다. 다중 구형 비디오/이미지 (텍스처/깊이)의 픽쳐 (들)이 회전 및/또는 투사 될 수 있다. 로테이터/프로젝터의 출력은 실시예들에 따라 소스 뷰 픽쳐(들)이라고 지칭 될 수 있는 픽쳐(텍스처/깊이) 및/또는 회전/투영 된 픽쳐이다.

실시예들에 따른 센터 뷰 생성기 (60011) (또는 센터 뷰 생성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이)로부터 센터 뷰 픽처(center view picture) 및 센터 뷰(center view)에 대한 프로파일/특성에 관한 센터 뷰 제너레이션 정보(center view generation information)를 포함하는 시그널링 정보를 생성한다.

인터미디에이트 뷰 신시사이저 (60012) (또는 중간 뷰 합성)는 회전/투영된 픽처 및/또는 픽처 (텍스처/깊이) (소스 뷰 픽처)로부터 인터미디에이트 뷰 픽처(intermediate view picture)를 합성하고 프리-제너레이션 정보(pre-generation information) 및/또는 뷰 합성 레코멘데이션 정보(view synthesis recommandataion information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 수신기 (디코더)에서 데이터를 디코딩하는데 사용될 수 있다.

실시예들에 따른 프루너(60013) (또는 프루닝)는 픽쳐 사이의 리던던시를 제거한다. 프루닝은 뷰 간 리던던시를 제거함을 나타낸다. 이 프로세스는 인터-뷰 리던던시 리무벌로 지칭될 수 있다. 실시 예들에 따르면, 프루너의 입력은 센터 뷰 픽쳐, 소스 뷰 픽쳐 및/또는 인터미디에이트 뷰 픽쳐를 포함한다. 또한, 프루닝된 스파스 뷰(들)가 프루너에 입력될 수 있다. 프루너는 수신기(디코더)에서 데이터를 디코딩하는데 사용될 수 있는 레퍼런스 뷰 정보(reference view information) 및/또는 리제너레이션 정보(regeneration information)를 포함하는 시그널링 정보를 생성한다. 시그널링 정보는 뷰를 재생성하기 위해 프루닝과 관련된 정보를 포함한다. 실시예들에 따르면, 프루닝의 아웃풋은 스파스 뷰 픽처, 레퍼런스 뷰 픽처 및/또는 스파스 뷰 픽처를 포함한다. 실시예들에 따르면, 뷰는 뷰 픽쳐로 지칭될 수 있다.

실시예들에 따른 스파스 뷰 프루너(60014) (또는 스파스 뷰 프루닝)는 픽쳐 사이의 중복성(리던던시)을 제거한다. 스파스 뷰 프루닝은 스파스 뷰(스파스 뷰 픽쳐) 사이의 중복성을 제거하는 것을 나타낸다. 실시예들에 따르면, 프루닝은 참조(레퍼런스) 뷰들 사이의 중복성을 제거하는 반면, 스파스 뷰 프 루닝은 스파스 뷰들 사이의 중복성을 제거한다. 스파스 뷰 프루닝 (sparse view pruning)으로 인해, 뷰 당 리던던시를 보다 효율적으로 제거 할 수 있어 인코딩 및/또는 전송의 성능 및 효율이 향상될 수 있다. 실시예들에 따르면, 스파스 뷰 프루닝의 출력은 프루닝된 스파 스 뷰 픽쳐이고 일부 프루닝된 스파스 뷰 픽쳐는 프루닝의 입력에 제공 될 수 있다.

패커 (60015) (또는 패킹)는 예를 들어 센터 뷰 픽쳐, 프루닝된 스파스 뷰 픽쳐(pruned sparse view picture), 레퍼런스 뷰 픽쳐(reference view picture) 및/또는 스파스 뷰 픽쳐(sparse view picture)와 같은 픽쳐를 패킹한다. 패커의 출력은 패킹된 픽쳐(packed picture)이다.

인코더 (60016) (또는 인코딩)는 예를 들어, 패킹된 픽처 및/또는 센터 뷰 제너레이션 정보, 레퍼런스 뷰 정보, 리제너레이션 정보, 프리-제너레이션 정보 및/또는 뷰 합성 레코멘데이션 정보(뷰 신테시스 레코멘데이션 정보)를 포함하는 시그널링 정보를 인코딩한다. 실시예들에 따르면, 인코딩된 데이터는 비트 스트림 (들)의 포맷으로서 전송된다.

도 61은 실시예들에 따른 비디오 수신 장치를 나타낸다.

구체적으로, 도 61(A)는 실시예들에 따른 비디오 수신 장치의 전체적인 블록도를 나타낸다.

실시예들에 따른 디코더 포스트-프로세싱부는 디코딩부(Decodings, 61001, 또는 디코더), 뷰 리컨스트럭션부(View reconstruction, 61002, 또는 뷰 리컨스트럭터, 뷰 리컨스트럭션), 뷰 합성부(View synthesis, 61003, 또는 뷰 신테시스), 렌더링/뷰포트 제너레이션부(Rendering/viewport generation, 61004, 또는 렌더링/뷰포트 제너레이터), 디스플레이부(61005, Display, 또는 디스플레이)를 포함할 수 있다.

서버(61000)는 실시예들에 따른 디코더 포스트-프로세싱부로 비트스트림을 전송할 수 있다. 서버는 실시예들에 따른 비디오 수신 장치(또는 디코더 포스트-프로세싱부)로부터 전송되는 뷰잉 포지션에 대한 정보(현재 뷰잉 포지션에 대한 정보, viewing position) 및/또는 뷰포트에 대한 정보(뷰포트 정보, viewport information)에 기초하여 (또는 대응하여) 비트스트림을 전송할 수 있다. 서버(61000)는 도 43에서 설명한 실시예들에 따른 서버를 의미할 수 있다. 또한 서버(61000)는 실시예들에 따른 인코더 프리-프로세싱부(또는 인코더단, 송신단, 전송 장치)를 의미할 수 있다.

디코딩부(61001)는 서버(61000)로부터 비트스트림을 수신하여 패킹된 뷰(또는 픽처들) 및/또는 관련 시그널링 정보를 생성, 출력 또는 파싱할 수 있다. 디코딩부는 실시예들에 따른 디코더 포스트-프로세싱부에서 생성되는 뷰잉 포지션에 대한 정보 및/또는 뷰포트에 대한 정보에 기초하여 수신된 비트스트림을 디코딩할 수 있다. 관련된 시그널링 정보로는 예를 들어, 실시예들에 따른 리컨스트럭션 파라미터(reconstruction parameter)들, 뷰 합성 파라미터들(view synthesis parameters)이 있을 수 있다. 리컨스트럭션 파라미터들은 실시예들에 따른 수신 단의 뷰 리제너레이션(view regeneration)을 수행함에 있어 필요한 시그널링 정보를 의미할 수 있다. 예를 들어, 리컨스트럭션 파라미터는 도 39 및/또는 도 40에 따른 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다. 또한, 실시예들에 따른 리컨스트럭션 파라미터는 후술할 뷰잉 포지션 그룹 정보(viewing position group information) 의 전부 또는 일부를 포함할 수 있다. 즉, 실시예들에 따른 리컨스트럭션 파라미터는 실시예들에 따른 프리프로세싱 메타데이터(preprocessing metadata)의 전부 또는 일부를 포함할 수 있다. 프리프로세싱 메타데이터는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information)를 포함할 수 있다.

뷰 리컨스트럭션(61002, view reconstruction)은 디코딩부(61001)에 의해 생성된 패킹된 픽처(또는 패킹된 뷰)를 수신하여 재생성된 뷰(regenerated view) 픽처를 생성할 수 있다. 뷰 리컨스트럭션은 실시예들에 따른 디코딩부(또는 디코더 포스트-프로세서)에 대한 뷰잉 포지션 및/또는 뷰포트에 대한 정보에 기초하여 재생성된 뷰를 생성할 수 있다. 예를 들어, 뷰 리컨스트럭션은 수신단의 사용자에 대한 뷰잉 포지션 및/또는 뷰 포트 정보에 따라, 해당 뷰잉 포지션 및/또는 뷰 포트와 관련된 픽처들(뷰들)을 재생성할 수 있다. 이 때, 뷰 리컨스트럭션은 실시예들에 따른 디코딩부로부터 생성된 리컨스트럭션 파라미터들(reconstruction parameters)에 기초하여 재생성된 뷰를 생성할 수도 있다.

실시예들에 따른 뷰 리컨스트럭션은 도 47, 도 49, 도 51, 도 53 및/또는 도 58에서 설명한 각각의 실시예들에 따른 제 1 뷰 리제너레이션(47000, 49000, 51000, 53000, 55000, 58000) 및/또는 각각의 실시예들에 따른 제 2 뷰 리제너레이션(47001, 49001, 51001, 53001, 55001, 58002) 전부 또는 일부를 포함할 수 있다. 또한, 실시예들에 따른 뷰 리컨스트럭션은 도 55 및/또는 도 57에서 설명한 각각의 실시예들에 따른 스파스 뷰 리제너레이션(55000, 57000)을 포함할 수 있다. 또한 실시예들에 따른 뷰 리컨스트럭션은 도 58에 따른 스파스 뷰 에스티메이션을 포함할 수도 있다. 여기서, 도 47, 도 49, 도 51, 도 53 및/또는 도 58에서 설명한 각각의 제 1 뷰 리제너레이션 및/또는 제 2 뷰 리제너레이션은 서로 다른 용어로 호칭될 수도 있다. 예를 들면, 실시예들에 따른 디코더던이 도 47 및 도 51에서 설명한 뷰 리제너레이션 구조를 포함하는 경우, 도 51에 따른 제 1 뷰 리제너레이션은 제 3 뷰 리제너레이션으로, 도 51에 따른 제 2 뷰 리제너레이션은 제 4 뷰 리제너레이션으로 호칭될 수도 있다.

뷰 신테시스(61003)은 재생성된 뷰 픽처(텍스처/뎁스)에 기초하여 합성된 뷰 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 생성할 수 있다. 뷰 신테시스는 실시예들에 따른 디코딩부(또는 디코더 포스트-프로세서)에 대한 뷰잉 포지션 및/또는 뷰포트에 대한 정보에 기초하여 합성된 뷰를 생성할 수 있다. 예를 들어, 뷰 신테시스는 수신단의 사용자에 대한 뷰잉 포지션 및/또는 뷰 포트 정보에 따라, 해당 뷰잉 포지션 및/또는 뷰 포트와 관련된 픽처들(뷰들)을 합성할 수 있다. 이 때, 뷰 신테시스는 실시예들에 따른 디코딩부로부터 생성된 뷰 신테시스 파라미터들(view synthesis parameters)에 기초하여 합성된 뷰를 생성할 수도 있다. 여기서, 실시예들에 따른 뷰 신테시스는 도 59에 따른 뷰 신테시스(59001)를 포함할 수 있다.

렌더링/뷰포트 생성(61004, rendering/viewport generation)은 실시예들에 따른 합성된 뷰 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 렌더링(rendering)하고, 해당 합성된 뷰 픽처에 대한 뷰포트를 생성할 수 있다.

디스플레이(61005)는 실시예들에 따른 렌더링된 픽처(텍스처) (또는 타겟 뷰잉 포지션에 대한 픽처)를 디스플레이할 수 있다.

도 61(B)는 실시예들에 따른 비디오 수신 장치의 블록도를 나타낸다.

디코딩부(61010) (또는 디코더, 디코딩)는 예를 들어 비트스트림 내의 픽처 및 실시예들에 따른 시그널링 정보 (viewing position group information 를 포함)를 포함하여 수신 된 데이터를 디코딩한다.

언패킹부(61011) (또는 언패커, 언패킹)는 비트 스트림에서 패킹 된 픽처와 같은 픽처를 언 패킹한다.

콘트롤러(61015) (또는 제어부, 제어기)는 비트 스트림에서의 시그널링 정보, 예를 들어 뷰잉 포지션 그룹 정보, 실시예들에 따른 중심 뷰 생성 정보(센터 뷰 제너레이션 정보), 실시예들에 따른 참조 뷰 정보(레퍼런스 뷰 정보), 실시예들에 따른 재생 정보(리제너레이션 정보), 실시예들에 따른 사전 생성 정보(프리-제너레이션 정보) 및 / 또는 실시예들에 따른 합성 추천 정보(뷰 합성 레코멘데이션 정보)를 제어한다. 후 처리에서의 각 동작에 시그널링 정보를 제공하기 위해 사용된다.

센터 뷰 제너레이션(61012) (또는 중앙 뷰 생성기, 센터 뷰 제너레이터)는 센터 뷰 생성 정보에 기초하여 센터 뷰 픽쳐를 생성한다. 실시예들에 따르면, viewing_position_picture_type 이 0과 동일한 실시 예들에 따른 시그널링 정보 또는 center_view_present_flag이 0과 동일한 경우 센터 뷰 제너레이션이 처리된다. 각 뷰잉 포지션에 대한 레퍼런스 뷰잉 포지션들 및 파라미터들은 views_position_id, center_view_generation_parameter에 의해 주어진다. 다른 경우에, 계산 복잡도가 수신기에 큰 부담인 경우, alternative_viewing_position_id, alternative_view_distance, rec_center_view_generation_method_type과 같은 주어진 정보에 의해 대안적인 시청 위치가 사용될 수 있다.

뷰 리제너레이션부(61013) (또는 뷰 재생성부, 뷰 리제너레이션기)는 레퍼런스 뷰(참조 뷰) 및/또는 희소 뷰(스파스 뷰) (들)에 기초하여 리제너레이트된 뷰를 재생성한다. 실시예들에 따르면, 희소 뷰는 비트스트림으로 전송될 수 있거나 희소 뷰는 희소 뷰 리제너레이션(스파스 뷰 리제너레이션)에 의해 생성 될 수 있다.

스파스 뷰 리제너레이션부(스파스 뷰 리제너레이터, 61014)는 비트 스트림에서의 희소 뷰 픽처 및 시그널링 정보에 기초하여 희소 뷰 픽처(스파스 뷰 픽처)를 재생성한다. 도 61에서 설명하는 스파스 뷰 리제너레이션부는 실시예들에 따른 스파스 뷰 리제너레이션부를 의미할 수 있다. 즉, 도 61에서 설명하는 스파스 뷰 리제너레이션부는 도 35 내지 도 37, 도 55 및/또는 도 57에 따른 스파스 뷰 리제너레이션(35000, 36000, 37000, 55000, 57000)을 포함할 수 있다. 또한, 실시예들에 따른 스파스 뷰 리제너레이션부는 도 58에 따른 스파스 뷰 에스티메이션(sparse view estimation, 58001)을 포함할 수 있다. 실시예들에 따른 비디오 수신 장치는 도 35 내지 도 37, 도 55, 도 57 및/또는 도 58에서 설명한 스파스 뷰 리제너레이션 및/또는 뷰 에스티메이션 전부 또는 일부를 포함할 수도 있다. 여기서, 도 35 내지 도 37, 도 55 및/또는 도 57에 따른 스파스 뷰 리제너레이션 각각은 다르게 호칭될 수도 있다. 예를 들어, 실시예들에 따른 비디오 수신 장치가 도 35 및 도 36 각각에 따른 스파스 뷰 리제너레이션부를 포함하는 경우, 각각에 대하여 제 1 스파스 뷰 리제너레이션 및/또는 제 2 스파스 뷰 리제너레이션으로 호칭될 수도 있다.

뷰 신테시스(뷰 합성부, 뷰 신디사이저, 뷰 합성기, 61016) (또는 뷰 합성)는 센터 뷰 픽처(또는 커먼 레퍼런스 뷰 픽처), 재생성된 뷰 픽처, 레퍼런스 뷰 픽쳐 (예를 들어, 주변을 뷰포인트들 및/또는 프리 제너레이션 정보 및/또는 합성 추천 정보를 포함하는 시그널링 정보에 대한)에 기초하여 목표 시청 위치에 대한 픽쳐 및 / 또는 픽쳐를 합성한다.

렌더러/뷰포트 생성기 (61017) (또는 렌더링/뷰포트 생성)는 뷰 합성에 의해 생성된 뷰를 렌더링하고, 사용자, 디스플레이어 또는 수신기로부터 획득된 사용자 뷰포트에 대한 뷰포트 정보를 생성한다. 실시예들에 따른 뷰포트 정보는 제어부에 제공된다.

실시예들에 따른 비디오 전송 방법은, 복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계(S62000), 상술한 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001) 및/또는 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계(S62002)를 포함할 수 있다.

S62000 관련하여, 실시예들에 따른 비디오 전송 방법은 복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계(S62000)를 수행할 수 있다. 복수의 뷰잉 포지션들에 대한 픽처들은 실시예들에 따른 인코더단에서 획득한 이미지/비디오에 대한 픽처들을 의미할 수 있다. 예를 들어, 복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들은 도 41, 도 42 및/또는 도 60에서 설명하는 텍스처/뎁스 픽처를 포함하는 다중 구형 비디오/이미지(멀티 스피리컬 비디오/이미지 데이터)를 포함할 수 있다. 또는, 복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들은 도 41, 도 42 및/또는 도 60에서 설명하는 로테이션/프로젝션부에 의해 회전 및/또는 투사 동작이 수행된 소스 뷰 픽처를 의미할 수 있다.

복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들은 실시예들에 따른 소스 뷰를 의미할 수 있다. 즉, 복수의 뷰잉 포지션(viewing position)들에 대한 픽처(picture)들은 도 30, 도 32, 도 34, 도 46, 도 48, 도 50, 도 52, 도 54, 도 56 등에서 설명하는 소스 뷰 픽처(제 1 뷰잉 포지션에 대한 소스 뷰 픽처(v1) 및/또는 제 2 뷰잉 포지션에 대한 소스 뷰 픽처(v2))를 포함할 수 있다.

실시예들에 따른 인터-뷰 리던던시를 제거하는 동작은 뷰들(예를 들어, 소스 뷰 픽처들) 간의 리던던시(redundancy)를 제거할 수 있다. 예를 들어, 복수 개의 소스 뷰 픽처들 간의 리던던시를 제거한다고 함은, 복수 개의 소스 뷰 픽처들이 공통적으로 포함하는 픽처들의 요소(예를 들면, 실시예들에 따른 컴포넌트 등)들을 제거하는 것을 의미한다. 즉, 인터-뷰 리던던시를 제거하는 동작은 복수 개의 뷰들 간의 중복성을 제거하고, 실시예들에 따른 레퍼런스 뷰 픽처와 실시예들에 따른 스파스 뷰 픽처를 생성한다. 레퍼런스 뷰 픽처는 인터-뷰 리던던시 제거하는 단계에서 리던던시가 제거되지 않은 픽처로, 실시예들에 따른 디코더단에서 인터-뷰 리던던시가 제거된 뷰를 재생성 및/또는 합성하기 위한 참조 픽처를 나타낸다. 스파스 뷰 픽처는 특정 뷰잉 포지션에 대한 소스 뷰 픽처가 상술한 레퍼런스 뷰 픽처에 의해 중복성이 제거된(즉, 리던던시가 제거된) 픽처를 나타낸다.

S62001 관련하여, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 상술한 인터-뷰 리던던시가 제거된 픽처들을 하나 또는 그 이상의 2D 이미지 상으로 병합하는 단계를 의미한다. 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 도 41 및 도 60에서 설명한 3DoF+ 프리프로세싱(또는 3DoF+ 프리프로세싱부, 41001, 60001)에서 수행될 수 있다. 또한, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는, 도 30, 도 32, 도 34 에서 설명하는 패킹/인코딩부(30002, 32002, 33002) 및/또는 도 46, 도 48, 도 50, 도 52, 도 54, 도 56에서 설명하는 인코딩부(46002, 48003, 50003, 50007, 52004, 54003, 56004)에서 수행될 수 있다. 또한, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 도 42 및 도 60에서 설명하는 패킹부(packing, 42004)에서 수행될 수도 있다. 여기서, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 패킹과 관련된 시그널링 정보를 생성할 수 있다.

인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 실시예들에 따른 리컨스트럭션 파라미터(reconstruction parameter)를 생성할 수 있다. 실시예들에 따른 리컨스트럭션 파라미터는 실시예들에 따른 프리프로세싱 메타데이터(preprocessing metadata)의 전부 또는 일부를 포함할 수 있다. 프리프로세싱 메타데이터는 실시예들에 따른 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 리제너레이션 정보(regeneration information), 레퍼런스 뷰 정보(reference view information)를 포함할 수 있다.

예를 들어, 리컨스트럭션 파라미터는 도 39 및/또는 도 40에 따른 Viewing position group information SEI message syntax 에 포함된 파라미터들의 전부 또는 일부를 포함할 수 있다. 또한, 실시예들에 따른 리컨스트럭션 파라미터는 후술할 뷰잉 포지션 그룹 정보(viewing position group information) 의 전부 또는 일부를 포함할 수 있다.

S62002 관련하여, 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계(S62002)는 실시예들에 따른 패킹된 픽처들을 인코딩할 수 있다. 즉, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는 실시예들에 따른 패킹 메타데이터(packing metadata)를 생성할 수 있다. 패킹 메타데이터는 실시예들에 따른 언패킹부(26002)가 언패킹을 수행하기 위해 필요한 시그널링 정보일 수 있다.

패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계(S62002)는 도 41 및 도 60에서 설명한 인코딩부(또는 인코더부, 41002, 60002)에서 수행될 수 있다. 또한, 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계(S62001)는, 도 30, 도 32, 도 34 에서 설명하는 패킹/인코딩부(30002, 32002, 33002) 및/또는 도 46, 도 48, 도 50, 도 52, 도 54, 도 56에서 설명하는 인코딩부(46002, 48003, 50003, 50007, 52004, 54003, 56004)에서 수행될 수 있다. 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계(S62002)는 패킹된 픽처들을 인코딩하여 비트스트림을 출력/전송한다.

실시예들에 따른 방법/장치는 실시예들에 따른 비디오 송신 방법/장치 및/또는 비디오 수신 방법/장치를 의미할 수 있다.

실시예들에 따른 방법/장치는 3DoF+ 비디오를 전송하기 위한 대역폭과 저장 장치의 저장공간을 줄일 수 있고, 헤드 모션 시차 및/또는 양안 시차가 제공되는 높은 품질의 3DoF+ 비디오를 보장할 수 있다. 또한, 또한, 이러한 구성으로 인해, 수신기는 헤드 모션 시차 및/또는 양안 시차가 제공되는 비디오 또는 다른 시점을 생성 할 수 있으며, 수신기는 변화하는 위치로 인터렉티브(interactive)한 비디오를 생성 할 수 있다.

실시예들에 따른 방법은 상술한 실시예들과 더 결합될 수 있다.

실시예들에 따른 비디오 전송 방법은, 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계(S63000), 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계(S63001), 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계(S63002), 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계(S63003)를 포함할 수 있다.

S63000 관련하여, 뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계(S63000)은 실시예들에 따른 비디오 수신 장치가 수신한 비트스트림을 디코딩할 수 있다. 이 때, 비디오 수신 장치(또는 디코딩부, 디코더)는 비트스트림에 포함된 데이터 전부를 디코딩할 수도 있고, 그 중 일부만을 디코딩할 수도 있다. 비디오 수신 장치가(또는 디코딩부, 디코더는) 비트스트림의 일부만을 디코딩하는 경우에는 비디오 수신 장치의 뷰잉 포지션(viewing position) 정보 및/또는 뷰포트 정보(viewport information)에 기초하여 디코딩할 수 있다. 즉 다시 말하면, 비디오 수신 장치는 사용자(viewer)에게 특정 뷰잉 포지션에 대한 뷰(view)들만을 디스플레이할 수도 있다. 따라서, 비디오 수신 장치는 목표하는 프로젝티드 픽처를 디코딩하여 재생성(regenerate) 및/또는 합성(synthesis)할 수 있도록 사용자(viewer)의 뷰포인트(viewpoint) 및/또는 뷰잉 포지션(viewing position)에 대한 정보에 기초하여 디코딩할 있다.

S63001 관련하여, 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계(S63001)은 상술한 디코딩된 비트스트림에 포함된 패킹된 픽처들(packed pictures)을 언패킹(unpacking)할 수 있다. 패킹된 픽처들(packed pictures)은 실시예들에 따른 적어도 하나의 레퍼런스 뷰 픽처(reference view picture), 적어도 하나의 스파스 뷰 픽처(sparse view picture)들을 포함할 수 있다. 스파스 뷰 픽처들은 실시예들에 따른 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 포함할 수 있다.

디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계는 도 28, 도 61 등에서 설명하는 언패킹부 또는 뷰 리컨스트럭션부에서 수행될 수 있다. 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계는 도

적어도 하나의 레퍼런스 뷰 픽처(reference view picture), 적어도 하나의 스파스 뷰 픽처(sparse view picture)들은 복수의 뷰잉 포지션에 대한 픽처를 의미할 수 있다. 예를 들면, 언패킹된 픽처는 제 1 뷰잉 포지션에 대한 레퍼런스 뷰, 제 1 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처, 제 1 뷰잉 포지션에 대한 제 2 스파스 뷰 픽처, 제 2 뷰잉 포지션에 대한 레퍼런스 뷰, 제 2 뷰잉 포지션에 대한 제 1 스파스 뷰 픽처, 제 2 뷰잉 포지션에 대한 프루닝된 스파스 뷰 픽처 등을 포함할 수도 있다.

S63002 관련하여, 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계(S63002)는, 실시예들에 따른 언패킹된 픽처들 내에 포함된 레퍼런스 뷰 픽처(들), 스파스 뷰 픽처(들)을 이용하여 재생성된 뷰(regenerated view)를 생성할 수 있다. 여기서 뷰 재생성하는 단계는 센터 뷰 제너레이션에 의해 생성된 센터 뷰 픽처를 참조하여 재생성된 뷰를 생성할 수 있다.

언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계(S63002)는, 도 31, 도 33, 도 35, 도 36, 도 37, 도 38, 도 45, 도 47, 도 49, 도 51, 도 53, 도 55, 도 57 및/또는 도 58에 따른 뷰 리제너레이션(35001, 36001, 38000, 4501, 55001, 59000), 스파스 뷰 리제너레이션(35000, 36000, 37001, 55000), 제 1 뷰 리제너레이션(31000, 33000, 37000, 47000, 49000, 51000, 53000, 58000) 제 2 뷰 리제너레이션(31001, 33001, 37002, 47001, 49001, 51001, 53001, 58001)에서 수행되는 일련의 동작들 전부 또는 일부를 포함할 수 있다.

뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계는 실시예들에 따른 재생성된 뷰(regenerated view)를 이용하여 사용자(viewer)들에게 디스플레이될 합성 뷰를 생성할 수 있다.

본 명세서에서 “/”및 “,”는 “및/또는”으로 해석할 수 있다. 예를 들어, “A/B”의 표현은 “A 및/또는 B”를 의미할 수 있다. 나아가, “A, B”는 “A 및/또는 B”를 의미할 수 있다. 더 나아가, “A/B/C”는 “A, B 및/또는 C 중 적어도 하나의”를 의미할 수 있다.

나아가 본 명세서에서 “또는”은 “및/또는”으로 해석할 수도 있다. 예를 들어 “A 또는 B”는 1)A만 나타내는 경우, 2)B만 나타내는 경우 및/또는 3)A 그리고 B를 나타내는 경우를 의미할 수 있다. 다시 말하면, 본 명세서에서 “또는”은 “부가적으로 또는 대안적으로(additionally or alternativelty)”를 의미할 수 있다.

실시예들에 따른 비디오 전송 방법, 비디오 수신 방법을 구현하기 위한 모듈들/블록들, 비디오 전송 장치, 비디오 수신 장치 및/또는 그 내부에 존재하는 모듈들/블록들은 상술한 바에 대응하는 기능을 수행할 수 있다.

도 1 내지 도 63에서 설명한 실시예들에 따른 비디오 전송 방법, 비디오 수신 방법, 비디오 전송 장치 및/또는 비디오 수신 장치의 구성요소들은 은 각각 별도의 하드웨어(예를 들면 칩, 하드웨어 회로, 통신 가능한 디바이스 등)으로 구성될 수도 있고 하나의 하드웨어로 구성될 수도 있다. 또한, 도 1 내지 도 63에서 설명한 실시예들에 따른 비디오 송신 장치 및/또는 비디오 수신 장치의 구성요소들은 각각 별도의 소프트웨어 내지 API(또는 펌웨어)로 구성될 수도 있다. 또한 실시예들에 따른 AR 모빌리티 제어 장치의 구성요소 중 적어도 하나 이상은 프로그램 또는 소프트웨어를 실행 할 수 있는 하나 또는 그 이상의 프로세서들로 구성될 수 있다.

도 1 내지 도 63에서 설명한 실시예들에 따른 비디오 전송 방법, 비디오 수신 방법, 비디오 전송 장치 및/또는 비디오 수신 장치의 구성요소들은 각각 별도의 하드웨어(예를 들면 칩, 하드웨어 회로, 통신 가능한 디바이스 등)으로 구성될 수도 있고 하나의 하드웨어로 구성될 수도 있다. 또한 실시예들에 따른 AR 모빌리티 장치의 구성요소들 중 적어도 하나 이상은 프로그램을 실행 할 수 있는 하나 또는 그 이상의 프로세서들로 구성될 수 있다.

또한, 명세서는 각각의 첨부된 도면을 참조하여 설명되었지만, 첨부 된 도면에 도시된 실시 예들을 서로 병합함으로써 새로운 실시예를 설계하는 것도 가능하다. 또한, 전술한 실시예를 실행하기 위한 프로그램(또는 소프트웨어, 펌웨어 등)이 기록된 컴퓨터에 의해 판독 가능한 기록매체가 당업자의 필요에 따라 설계되는 경우, 이는 본 명세서에서 청구하고자 하는 권리범위 및 그 등가물의 범위에 속한다.

즉, 본 명세서에서는 첨부된 도면을 참조하여 설명하였으나, 이는 실시예일뿐 특정 실시예에 한정되지 아니하며, 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 변형실시가 가능한 다양한 내용도 청구범위에 따른 권리범위에 속한다. 또한, 그러한 변형 실시들이 본 명세서에 설명된 실시예들의 기술 사상으로부터 개별적으로 이해되어서는 안 된다.

실시예들에 따라 사용되는 제1, 제2 등의 용어들은 실시예들에 따른 다양한 구성 요소들을 설명하기 위해 사용될 수 있다. 하지만 실시예들에 따른 다양한 구성 요소들은 위 용어들에 의해 제한되서는 안된다. 이러한 용어들은 하나의 구성요소를 다른 구성요소와 구별하기 위해 사용되는 것에 불과하다. 예를 들어, 제 1 프루닝부는 제 2 프루닝부로 지칭될 수 있고, 이와 유사하게 제 2 프루닝부는 제 1 프루닝부로 지칭될 수 있으며, 이와 같은 변경은 위에서 설명한 다양한 실시예의 범위에서 벗어나지 않는 것으로 해석되어야 한다. 제 1 프루닝부 및 제 2 프루닝부 모두 광의의 의미로 프루닝부로 해석될 수 있지만, 문맥상 명확히 나타나지 않는 한, 동일한 가상의 것으로 해석되지 않는다.

실시예들에 따른 AR 모빌리티 장치 또는 AR 모빌리티 장치 제어 방법을 수행하기 위한 실행 가능한 인스트럭션들은 하나 또는 그 이상의 프로세서들에 의해 실행되기 위해 구성된 일시적이지 않은 CRM 또는 다른 컴퓨터 프로그램 제품들에 저장될 수 있거나, 하나 또는 그 이상의 프로세서들에 의해 실행되기 위해 구성된 일시적인 CRM 또는 다른 컴퓨터 프로그램 제품들에 저장될 수 있다. 또한 실시예들에 따른 메모리는 휘발성 메모리(예를 들면 RAM 등)뿐 만 아니라 비휘발성 메모리, 플래쉬 메모리, PROM등을 전부 포함하는 개념으로 사용될 수 있다.

또한, 이상에서는 바람직한 실시 예에 대하여 도시하고 설명하였지만, 실시예들은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 실시예들의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 실시예들의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.

그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양 발명의 설명은 보충적으로 적용될 수가 있다.

실시예들의 사상이나 범위를 벗어나지 않고 본 명세서에서 설명하는 실시예들에서 다양한 변경 및 변형이 가능함은 당업자에게 이해된다. 따라서, 본 명세서에 따른 실시예들은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 본 실시예들의 변경 및 변형을 포함하는 것으로 의도된다.

본 명세서에서 장치 및 방법 발명이 모두 언급되고, 장치 및 방법 발명 모두의 설명은 서로 보완하여 적용될 수 있다.

다양한 실시예들에 발명의 실시를 위한 최선의 형태에서 설명되었다.

본 명세서의 실시예들은 VR 관련 분야에 적용 가능하다.

Claims

복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들의 인터-뷰 리던던시를 제거하는 단계;

상기 인터-뷰 리던던시가 제거된 픽처들을 패킹하는 단계;

상기 패킹된 픽처들 및 시그널링 정보를 인코딩하는 단계; 를 포함하는,

비디오 전송 방법.
제 1 항에 있어서, 상기 비디오 전송 방법은 :

상기 복수의 뷰잉 포지션들에 대한 픽처들에 포함된 소스 뷰 픽처들에 기초하여 센터 뷰 픽처(center view picture) 및 센터 뷰 제너레이션 정보(center view generation information)를 생성하는 단계; 및

상기 소스 뷰 픽처들에 기초하여 중간 뷰 픽처를 합성하는 단계, 상기 중간 뷰 픽처를 합성하는 단계는 프리-제너레이션 정보(pre-generation information) 및 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)를 생성함; 를 더 포함하고,

상기 인터-뷰 리던던시를 제거하는 단계는 상기 소스 뷰 픽처들, 상기 중간 뷰 픽처 및 상기 센터 뷰 픽처 중 적어도 두 개의 픽처에 기초하여 스파스 뷰(sparse view) 픽처들을 생성하고,

상기 인터-뷰 리던던시를 제거하는 단계는 레퍼런스 뷰(reference view) 픽처들, 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 더 생성하는,

비디오 전송 방법.
제 2 항에 있어서, 상기 비디오 전송 방법은 :

상기 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 임시 재생성된 뷰 픽처(temporally regenerated view picture)를 생성하는 단계; 및

상기 임시 재생성된 뷰 픽처 및 상기 센터 뷰 픽처로부터 추측된 소스 뷰를 프루닝(pruning)하는 단계, 상기 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함; 를 더 포함하고,

상기 인코딩하는 단계는 상기 제 2 스파스 뷰 픽처를 더 인코딩하는,

비디오 전송 방법.
제 2 항에 있어서, 상기 비디오 전송 방법은 :

상기 패킹 및 인코딩된 픽처들을 디코딩 및 언패킹하는 단계, 상기 디코딩 및 언패킹된 픽처들은 임시 디코딩된 공통 레퍼런스 뷰 픽처(temporally decoded common reference view picture) 및 임시 디코딩된 스파스 뷰 픽처(temporally decoded sparse view picture)를 포함함;

상기 임시 디코딩된 공통 레퍼런스 뷰 픽처 및 상기 임시 디코딩된 스파스 뷰 픽처에 기초하여 재생성된 뷰를 생성하는 단계; 및,

상기 재생성된 뷰 및 상기 임시 디코딩된 공통 레퍼런스 뷰 픽처로부터 추측된 소스 뷰 픽처를 프루닝하는 단계, 상기 프루닝하는 단계는 오류 로버스트 스파스 뷰 픽처(error robust sparse view picture)를 생성함; 를 포함하고,

상기 패킹하는 단계는 상기 오류 로버스트 스파스 뷰 픽처를 더 패킹하는,

비디오 전송 방법.
제 2 항에 있어서, 상기 인터-뷰 리던던시를 제거하는 단계는 :

상기 제 1 뷰잉 포지션과 관련된 제 1 소스 뷰 픽처를 상기 센터 뷰 픽처에 기초하여 제 1 프루닝하는 단계, 상기 제 1 프루닝하는 단계는 제 1 스파스 뷰 픽처를 생성함;

상기 제 1 소스 뷰 픽처를 상기 제 1 뷰잉 포지션과 다른 제 2 뷰잉 포지션과 관련된 제 2 소스 뷰 픽처에 기초하여 제 2 프루닝하는 단계, 상기 제 2 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함;

상기 제 1 스파스 뷰 픽처 및 상기 제 2 스파스 뷰 픽처 중 하나의 픽처를 선택하는 단계; 를 포함하고,

상기 인코딩하는 단계는 상기 제 1 스파스 뷰 픽처 및 상기 제 2 스파스 뷰 픽처 중 선택된 상기 하나의 픽처를 더 인코딩하는,

비디오 전송 방법.
제 2 항에 있어서, 상기 비디오 전송 방법은 :

상기 스파스 뷰 픽처들 내 포함된 제 2 뷰잉 포지션과 관련된 스파스 뷰 픽처에 기초하여, 상기 스파스 뷰 픽처들 내 포함된 제 1 뷰잉 포지션과 관련된 레퍼런스 스파스 뷰 픽처(reference sparse view picture)를 프루닝(pruning)하는 단계,

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른 뷰잉 포지션이고, 상기 레퍼런스 스파스 뷰 픽처를 프루닝하는 단계는 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 생성함; 및,

상기 프루닝된 스파스 뷰 픽처로부터 레지듀얼(residual)를 검출하는 단계; 를 포함하고,

상기 프루닝된 스파스 뷰 픽처는 상기 레지듀얼의 존재에 대응하여 패킹되는,

비디오 전송 방법.
복수의 뷰잉 포지션(viewing positions)들에 대한 픽처(picture)들로부터 인터-뷰 리던던시 를 제거하는 인터-뷰 리던던시 제거부(inter-view redundancy remover);

상기 인터-뷰 리던던시 제거된 픽처들을 패킹하는 패커(packer);

상기 패킹된 픽처들 및 시그널링 정보를 인코딩하는 인코더(encoder); 를 포함하는,

비디오 전송 장치.
제 7 항에 있어서, 상기 비디오 전송 장치는 :

상기 복수의 뷰잉 포지션들에 대한 픽처들에 포함된 소스 뷰 픽처들에 기초하여 센터 뷰 픽처(center view picture) 및 센터 뷰 제너레이션 정보(center view generation information)를 생성하는 센터 뷰 제너레이션부(center view generator); 및

상기 소스 뷰 픽처들에 기초하여 중간 뷰 픽처들을 합성하는 중간 뷰 합성부(intermediate view synthesizer), 상기 중간 뷰 픽처들을 합성부는 프리-제너레이션 정보(pre-generation information) 및 뷰 합성 레코멘데이션 정보(view synthesis recommendation information)를 생성함; 를 더 포함하고,

상기 인터-뷰 리던던시 제거부는 상기 소스 뷰 픽처들 및 상기 센터 뷰 픽처에 기초하여 수행되고,

상기 인터-뷰 리던던시 제거부는 스파스 뷰(sparse view) 픽처들, 레퍼런스 뷰(reference view) 픽처들, 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보를 생성하고,

상기 시그널링 정보는 상기 센터 뷰 제너레이션 정보, 상기 프리-제너레이션 정보, 상기 뷰 합성 레코멘데이션 정보, 상기 레퍼런스 뷰 정보 및 상기 리제너레이션 정보(regeneration information)를 포함함;

비디오 전송 장치.
제 8 항에 있어서, 상기 비디오 전송 장치는 :

상기 스파스 뷰 픽처들의 제 1 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 임시 재생성된 뷰 픽처(temporally regenerated view picture)를 생성하는 제 1 뷰 재생성부(a first view regenerator); 및

상기 임시 재생성된 뷰 픽처 및 상기 센터 뷰 픽처로부터 추측된 소스 뷰를 프루닝(pruning)하는 제 1 프루닝부(a first pruner), 상기 제 1 프루너는 제 2 스파스 뷰 픽처를 생성함; 를 더 포함하고,

상기 인코더는 상기 제 2 스파스 뷰 픽처를 더 인코딩하는,

비디오 전송 장치.
제 8 항에 있어서, 상기 비디오 전송 장치는 :

상기 패킹 및 인코딩된 픽처들을 디코딩 및 언패킹하는 디코더(decoder) 및 언패커(unpacker), 상기 디코딩 및 언패킹된 픽처들은 임시 디코딩된 공통 레퍼런스 뷰 픽처(temporally decoded common reference view picture) 및 임시 디코딩된 스파스 뷰 픽처(temporally decoded sparse view picture)를 포함함;

상기 임시 디코딩된 공통 레퍼런스 뷰 픽처 및 상기 임시 디코딩된 스파스 뷰 픽처에 기초하여 재생성된 뷰를 생성하는 제 2 뷰 재생성부(a second view regenerator); 및,

상기 재생성된 뷰 및 상기 임시 디코딩된 공통 레퍼런스 뷰 픽처로부터 추측된 소스 뷰 픽처를 프루닝하는 제 2 프루너(a second pruner), 상기 제 2 프루너는 오류 로버스트 스파스 뷰 픽처(error robust sparse view picture)를 생성함; 를 포함하고,

상기 패커는 상기 오류 로버스트 스파스 뷰 픽처를 더 패킹하는,

비디오 전송 장치.
제 8 항에 있어서, 상기 인터-뷰 리던던시를 제거부는 :

상기 제 1 뷰잉 포지션과 관련된 제 1 소스 뷰 픽처를 상기 센터 뷰 픽처에 기초하여 제 1 프루닝하는 단계, 상기 제 1 프루닝하는 단계는 제 1 스파스 뷰 픽처를 생성함;

상기 제 1 소스 뷰 픽처를 상기 제 1 뷰잉 포지션과 다른 제 2 뷰잉 포지션과 관련된 제 2 소스 뷰 픽처에 기초하여 제 2 프루닝하는 단계, 상기 제 2 프루닝하는 단계는 제 2 스파스 뷰 픽처를 생성함;

상기 제 1 스파스 뷰 픽처 및 상기 제 2 스파스 뷰 픽처 중 하나의 픽처를 선택하는 단계; 를 수행하고,

상기 인코더는 상기 제 1 스파스 뷰 픽처 및 상기 제 2 스파스 뷰 픽처 중 선택된 상기 하나의 픽처를 더 인코딩하는,

비디오 전송 장치.
제 8 항에 있어서, 상기 비디오 전송 장치는 :

상기 스파스 뷰 픽처들 내 포함된 제 2 뷰잉 포지션과 관련된 스파스 뷰 픽처에 기초하여, 상기 스파스 뷰 픽처들 내 포함된 제 1 뷰잉 포지션과 관련된 레퍼런스 스파스 뷰 픽처(reference sparse view picture)를 프루닝(pruning)하는 스파스 뷰 프루너(sparse view pruner),

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른 뷰잉 포지션이고, 상기 스파스 뷰 프루너는 프루닝된 스파스 뷰 픽처(pruned sparse view picture)를 생성함; 및,

상기 프루닝된 스파스 뷰 픽처로부터 레지듀얼(residual)를 검출하는 레지듀얼 검출부(residual detector); 를 포함하고,

상기 프루닝된 스파스 뷰 픽처는 상기 레지듀얼의 존재에 대응하여 패킹되는,

비디오 전송 장치.
뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 단계;

상기 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 단계, 상기 언패킹된 비트스트림은 시그널링 정보를 포함함;

상기 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 단계; 및,

상기 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 단계; 를 포함하는,

비디오 수신 방법.
제 13항에 있어서,

상기 시그널링 정보는 뷰잉 포지션 그룹 정보(viewing position group information)를 포함하고, 상기 뷰잉 포지션 그룹 정보는 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 포함하고,

상기 비디오 수신 방법은, 상기 언패킹된 픽처들 내에 포함된 레퍼런스 뷰 픽처(reference view picture)들 및 상기 센터 뷰 제너레이션 정보에 기초하여 센터 뷰 픽처(center view picture)를 생성하는 단계를 포함하고,

상기 뷰 재생성하는 단계는 상기 레퍼런스 뷰 픽처들, 상기 언패킹된 픽처들 내의 스파스 뷰 픽처(sparse view picture)들, 상기 센터 뷰 픽처, 상기 레퍼런스 뷰 정보 및 상기 리제너레이션 정보에 기초하여 재생성된 뷰(regenerated view)를 생성하고,

상기 뷰 합성하는 단계는 상기 재생성된 뷰, 상기 센터 뷰 픽처, 상기 레퍼런스 뷰 픽처들, 상기 프리-제너레이션 정보 및 상기 뷰 합성 레코멘데이션 정보에 기초하여 합성된 뷰를 생성하는,

비디오 수신 방법.
제 14 항에 있어서, 상기 비디오 뷰 재생성하는 단계는 :

상기 센터 뷰 픽처 및 상기 스파스 뷰 픽처들 내에 포함된 상기 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰 픽처에 기초하여, 제 1 뷰잉 포지션과 관련된 제 1 재생성된 뷰를 생성하는 단계; 및,

상기 제 1 재생성된 픽처 및 상기 센터 뷰 픽처에 기초하여, 제 2 뷰잉 포지션과 관련된 제 2 재생성된 픽처를 생성하는 단계; 를 수행하고,

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른 뷰잉 포지션인,

비디오 수신 방법.
제 14 항에 있어서, 상기 뷰 재생성하는 단계는 :

상기 센터 뷰 픽처 및 상기 스파스 뷰 픽처들 내에 포함된 상기 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰에 기초하여, 제 1 뷰잉 포지션과 관련된 임의 생성 뷰(temporally generated view)를 생성하는 단계;

상기 임의 생성 뷰로부터 제 2 뷰잉 포지션과 관련된 제 2 스파스 뷰 픽처를 추정하는 단계,

상기 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 상기 추정하는 단계는 상기 프루닝된 스파스 뷰 픽처에 기초하여 상기 제 2 스파스 뷰 픽처를 추정함; 및

상기 추정된 제 2 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 상기 제 2 뷰잉 포지션과 관련된 재생성된 뷰를 생성하는 단계; 또는,

상기 제 1 스파스 뷰 픽처로부터 상기 제 2 스파스 뷰 픽처를 재생성하는 단계,

상기 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 상기 제 2 스파스 뷰 픽처를 재생성하는 단계는 상기 프루닝된 스파스 뷰 픽처에 기초하여 상기 제 2 스파스 뷰 픽처를 생성함; 및

상기 재생성된 제 2 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 상기 제 재생성된 뷰를 생성하는 단계; 를 수행하여 상기 재생성된 뷰를 생성하고,

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른,

비디오 수신 방법.
뷰잉 포지션(viewing position) 및 뷰포트 정보(viewport information)에 기초하여 비디오의 비트스트림(bitstream)을 디코딩하는 디코더(decoder);

상기 디코딩된 비트스트림 내의 픽처들 및 시그널링 정보를 언패킹하는 언패커(unpacker);

상기 언패킹된 픽처들을 뷰 재생성(view regenerating)하는 뷰 재생성부(view regenerator); 및,

상기 뷰 재생성된 픽처들을 뷰 합성(view synthesizing)하는 뷰 합성부(view synthesizer); 를 포함하는,

비디오 수신 장치.
제 17항에 있어서, 상기 비디오 수신 장치는 :

상기 시그널링 정보는 뷰잉 포지션 그룹 정보(viewing position group information)를 포함하고, 상기 뷰잉 포지션 그룹 정보는 센터 뷰 제너레이션 정보(center view generation information), 프리-제너레이션 정보(pre-generation information), 뷰 합성 레코멘데이션 정보(view synthesis recommendation information), 레퍼런스 뷰 정보(reference view information) 및 리제너레이션 정보(regeneration information)를 포함하고,

상기 비디오 수신 방법은, 상기 언패킹된 픽처들 내에 포함된 레퍼런스 뷰 픽처(reference view picture)들 및 상기 센터 뷰 제너레이션 정보에 기초하여 센터 뷰 픽처(center view picture)를 생성하는 단계를 포함하고,

상기 뷰 재생성하는 단계는 상기 레퍼런스 뷰 픽처들, 상기 언패킹된 픽처들 내의 스파스 뷰 픽처(sparse view picture)들, 상기 센터 뷰 픽처, 상기 레퍼런스 뷰 정보 및 상기 리제너레이션 정보에 기초하여 재생성된 뷰(regenerated view)를 생성하고,

상기 뷰 합성하는 단계는 상기 재생성된 뷰, 상기 센터 뷰 픽처, 상기 레퍼런스 뷰 픽처들, 상기 프리-제너레이션 정보 및 상기 뷰 합성 레코멘데이션 정보에 기초하여 합성된 뷰를 생성하는,

비디오 수신 장치.
제 18 항에 있어서, 상기 비디오 뷰 재생성부는 :

상기 센터 뷰 픽처 및 상기 스파스 뷰 픽처들 내에 포함된 상기 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰 픽처에 기초하여, 제 1 뷰잉 포지션과 관련된 제 1 재생성된 뷰를 생성하는 단계; 및,

상기 제 1 재생성된 픽처 및 상기 센터 뷰 픽처에 기초하여, 제 2 뷰잉 포지션과 관련된 제 2 재생성된 픽처를 생성하는 단계; 를 수행하고,

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른,

비디오 수신 장치.
제 18 항에 있어서, 상기 뷰 재생성부는 :

상기 센터 뷰 픽처 및 상기 스파스 뷰 픽처들 내에 포함된 상기 제 1 뷰잉 포지션과 관련된 제 1 스파스 뷰에 기초하여, 제 1 뷰잉 포지션과 관련된 임의 생성 뷰(temporally generated view)를 생성하는 단계;

상기 임의 생성 뷰로부터 제 2 뷰잉 포지션과 관련된 제 2 스파스 뷰 픽처를 추정하는 단계,

상기 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 상기 추정하는 단계는 상기 프루닝된 스파스 뷰 픽처에 기초하여 상기 제 2 스파스 뷰 픽처를 추정함; 및

상기 추정된 제 2 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 상기 제 2 뷰잉 포지션과 관련된 재생성된 뷰를 생성하는 단계; 또는,

상기 제 1 스파스 뷰 픽처로부터 상기 제 2 스파스 뷰 픽처를 재생성하는 단계,

상기 스파스 뷰 픽처들 내에 프루닝된 스파스 뷰(pruned sparse view) 픽처를 포함하는 경우, 상기 제 2 스파스 뷰 픽처를 재생성하는 단계는 상기 프루닝된 스파스 뷰 픽처에 기초하여 상기 제 2 스파스 뷰 픽처를 생성함; 및

상기 재생성된 제 2 스파스 뷰 픽처 및 상기 센터 뷰 픽처에 기초하여 상기 제 재생성된 뷰를 생성하는 단계; 를 수행하여 상기 재생성된 뷰를 생성하고,

상기 제 2 뷰잉 포지션은 상기 제 1 뷰잉 포지션과 다른,

비디오 수신 장치.