WO2020050577A1

WO2020050577A1 - 비디오 송신 방법, 비디오 송신 장치, 비디오 수신 방법 및 비디오 수신 장치

Info

Publication number: WO2020050577A1
Application number: PCT/KR2019/011294
Authority: WO
Inventors: 오현묵; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2018-09-07
Filing date: 2019-09-03
Publication date: 2020-03-12
Also published as: US20210337243A1; US11528509B2

Abstract

본 발명의 실시예들에 따른 비디오 송신 장치는 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 타겟 뷰 프레딕션 컨트롤러(Target view prediction controller); 상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 프레딕션 에러 컨트롤러(Prediction error controller), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨; 상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 패치 패킹 컨트롤러(Patch packing controller); 및 상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 인코더(Encoder); 를 포함한다. 본 발명의 실시예들에 따른 비디오 송신 방법은 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 단계(Target view perdiction); 상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 단계(Prediction error), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨; 상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 단계(Patch packing); 및 상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 단계(Encoding); 를 포함한다.

Description

비디오 송신 방법, 비디오 송신 장치, 비디오 수신 방법 및 비디오 수신 장치

본 발명은 비디오 송신 방법, 비디오 송신 장치, 비디오 수신 방법 및 비디오 수신 장치에 관한 것이다.

VR (Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경내에 있는 것 같은 감각을 제공한다. VR 을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 시스템은 사용자가 인터랙티브하게 VR 컨텐트들을 소비할 수 있도록 할 수 있다.

VR 시스템은 더 효율적으로 VR 환경을 사용자에게 제공하기 위하여, 개선될 필요가 있다. 이를 위하여 VR 컨텐츠와 같은 많은 양의 데이터 전송을 위한 데이터 전송 효율, 송수신 네트워크 간의 강건성, 모바일 수신 장치를 고려한 네트워크 유연성, 효율적인 재생 및 시그널링을 위한 방안등이 제안되어야 한다.

또한 일반적인 TTML (Timed Text Markup Language) 기반의 자막(subtitle) 이나 비트맵 기반의 자막은 360 비디오를 고려하여 제작되지 않았기 때문에, 360 비디오에 적합한 자막을 제공하기 위해서는 VR 서비스의 유즈 케이스(use case) 에 적합하도록 자막 관련 특징 및 자막 관련 시그널링 정보 등이 더 확장될 필요가 있다.

본 발명의 목적에 따라서, 본 발명은 비디오 송신 방법, 비디오 송신 장치, 비디오 수신 방법 및 비디오 수신 장치를 제안한다.

본 발명의 실시예들에 따른 비디오 송신 장치는 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 타겟 뷰 프레딕션 컨트롤러(Target view prediction controller); 상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 프레딕션 에러 컨트롤러(Prediction error controller), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨; 상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 패치 패킹 컨트롤러(Patch packing controller); 및 상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 인코더(Encoder); 를 포함한다.

본 발명의 실시예들에 따른 비디오 송신 방법은 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 단계(Target view perdiction); 상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 단계(Prediction error), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨; 상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 단계(Patch packing); 및 상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 단계(Encoding); 를 포함한다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 3DoF+ 영상을 전송하고 수신하는 과정에서 영상 간 중첩되는 정보를 제외하고 유효 정보만을 패킹해서 효율적으로 전달할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 영상의 수를 줄임으로써 효율적으로 영상을 전송할 수 있는 효과가 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 정확도가 높은 영상 추정 방법을 제공할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 오류가 발생할 수 있는 정보를 찾아서 에러 강건성이 높은 영상 추정 방법을 제공할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 영상 정보를 추정하고 정확도가 떨어지는 부분 및 에러를 감지할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 복잡도가 낮은 패치를 구성할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 부담이 적은 인코딩 및 디코딩 방법을 제공할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 추정이 불가능한 영역에 대한 정보를 효율적으로 전달할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 전달해야 하는 영상의 개수를 줄임으로써 데이터량을 줄이는 효과가 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 상술한 효과를 위한 시그널링 정보를 제공할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 실시간 움직임을 반영한 비디오 송수신 시스템을 제공할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 수신기 부담을 줄이고 레이턴시를 제거할 수 있다.

도 1 은 본 발명에 따른 360도 비디오 제공을 위한 전체 아키텍처를 도시한 도면이다.

도 2 은 본 발명의 일 측면(aspect)에 따른 360도 비디오 전송 장치를 도시한 도면이다.

도 3 은 본 발명의 다른 측면에 따른 360도 비디오 수신 장치를 도시한 도면이다.

도 4 는 본 발명의 다른 실시예에 따른 360도 비디오 전송 장치/360도 비디오 수신 장치를 도시한 도면이다.

도 5 는 본 발명의 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

도 6 는 본 발명의 일 실시예에 따른 프로젝션 스킴들을 도시한 도면이다.

도 7 은 본 발명의 일 실시예에 따른 타일(Tile)을 도시한 도면이다.

도 8 은 본 발명의 일 실시예에 따른 360도 비디오 관련 메타데이터를 도시한 도면이다.

도9는 3DoF+ VR 시스템에서 추가적으로 정의되는 위치(viewpoint)와 시점(viewing position)를 나타낸다.

도10은 3DoF+ 시스템에 기반한 360도 비디오 신호처리 및 관련 전송장치/수신장치 구현 방법에 대해서 도시한다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

도 15는 OMAF 구조를 나타낸다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

도 17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

도18은 6DoF 비디오 서비스 제공을 위한 전송 장치의 구성을 나타낸다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

도20은 6 DoF 비디오 전송/수신 장치의 구성을 나타낸다.

도21은 6DoF 공간을 나타낸다.

도22는 본 발명의 실시예들에 따른 프리-인코더(Pre-encoder)의 구조를 나타낸다.

도23은 본 발명의 실시예들에 따른 타겟 뷰 프레딕션 프로세스(Target view prediction process)를 나타낸다.

도24는 본 발명의 실시예들에 따른 프레딕션 에러 프로세싱(prediction error processing)을 나타낸다.

도25는 본 발명의 실시예들에 따른 프레딕션 에러 프로세싱(prediction error processing)을 나타낸다.

도26은 본 발명의 실시예들에 따른 패치 패킹 프로세싱을 나타낸다.

도27은 본 발명의 실시예들에 따른 비디오 송신 장치의 인코더 및 비디오 수신 장치의 디코더의 아키텍쳐를 나타낸다.

도28은 본 발명의 실시예들에 따른 인코더의 구체적인 아키텍쳐를 나타낸다.

도29는 본 발명의 실시예들에 따른 디코터의 구체적인 아키텍쳐를 나타낸다.

도30은 본 발명의 실시예들에 따른 프레딕션 에러 프로세싱, 타겟 뷰 프레딕션 프로세싱에 관련된 메타데이터를 나타낸다.

도31 및 도32은 본 발명의 실시예들에 따른 패치 패킹에 관련된 메타데이터를 나타낸다.

도33은 본 발명의 실시예들에 따른 전체 영상에 대한 메타데이터를 나타낸다.

도34는 본 발명의 실시예들에 따른 전체 영상에 대한 메타데이터를 나타낸다.

도35는 본 발명의 실시예들에 따른 비디오 송신 방법을 나타낸다.

본 발명의 바람직한 실시예에 대해 구체적으로 설명하며, 그 예는 첨부된 도면에 나타낸다. 첨부된 도면을 참조한 아래의 상세한 설명은 본 발명의 실시예에 따라 구현될 수 있는 실시예만을 나타내기보다는 본 발명의 바람직한 실시예를 설명하기 위한 것이다. 다음의 상세한 설명은 본 발명에 대한 철저한 이해를 제공하기 위해 세부 사항을 포함한다. 그러나 본 발명이 이러한 세부 사항 없이 실행될 수 있다는 것은 당업자에게 자명하다.

본 발명에서 사용되는 대부분의 용어는 해당 분야에서 널리 사용되는 일반적인 것들에서 선택되지만, 일부 용어는 출원인에 의해 임의로 선택되며 그 의미는 필요에 따라 다음 설명에서 자세히 서술한다. 따라서 본 발명은 용어의 단순한 명칭이나 의미가 아닌 용어의 의도된 의미에 근거하여 이해되어야 한다.

본 발명은 사용자에게 VR (Virtual Reality, 가상현실) 을 제공하기 위하여, 360도 컨텐츠를 제공하는 방안을 제안한다. VR 이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR 은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.

360도 컨텐츠는 VR 을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360도 오디오를 포함할 수 있다. 360도 비디오는 VR 을 제공하기 위해 필요한, 동시에 모든 방향(360도) 으로 캡쳐되거나 재생되는 비디오 내지 이미지 컨텐츠를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형(Spherical)면 상에 나타내어질 수 있다. 360도 오디오 역시 VR 을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360도 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360도 컨텐츠를 이용하여 VR 경험을 소비할 수 있다. 이하, 360도 콘텐트/비디오/이미지/오디오 등은 단위(도, degree)가 생략된 360 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있고 VR 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있다.

본 발명은 특히 360 비디오를 효과적으로 제공하는 방안을 제안한다. 360 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360 비디오가 캡쳐될 수 있다. 캡쳐된 360 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360 비디오가 사용자에게 제공될 수 있다.

구체적으로 360 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡쳐하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 (t1010) 과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 (t1010) 의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡쳐된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡쳐 과정에서 캡쳐와 관련된 메타데이터가 생성될 수 있다.

이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

준비 과정은 캡처된 이미지/비디오 및 캡쳐 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.

먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.

이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스트칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 매핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 (t1020) 과 같은 2D 이미지의 형태가 될 수 있다.

2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분되어질 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.

실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.

실시예에 따라 이 처리 과정은, 360 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다.2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.

실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.

전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.

프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 매핑, 프로젝션이라고 부를 수도 있다. 이 때 매핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.

렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 (t1030) 과 같은 형태를 가질 수 있다. 도시된 (t1030) 은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 (t1040) 과 같은 형태일 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 360 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360 비디오를 소비하는지, 360 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.

전술한 360 비디오 제공을 위한 전체 아키텍처 내에서, 캡쳐/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360 비디오 데이터라 부를 수 있다. 360 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.

일 측면에 따르면 본 발명은 360 비디오 전송 장치와 관련될 수 있다. 본 발명에 따른 360 비디오 전송 장치는 전술한 준비 과정 내지 전송 과정에 관련된 동작들을 수행할 수 있다. 본 발명에 따른 360 비디오 전송 장치는 데이터 입력부, 스티처(Stitcher), 프로젝션 처리부, 리전별 패킹 처리부(도시되지 않음), 메타데이터 처리부, (송신측) 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 엘레멘트로서 포함할 수 있다.

데이터 입력부는 캡쳐된 각 시점별 이미지/비디오 들을 입력받을 수 있다. 이 시점별 이미지/비디오 들은 하나 이상의 카메라들에 의해 캡쳐된 이미지/비디오들일 수 있다. 또한 데이터 입력부는 캡쳐 과정에서 발생된 메타데이터를 입력받을 수 있다. 데이터 입력부는 입력된 시점별 이미지/비디오들을 스티처로 전달하고, 캡쳐 과정의 메타데이터를 시그널링 처리부로 전달할 수 있다.

스티처는 캡쳐된 시점별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타데이터 처리부로부터 필요한 메타데이터를 전달받아 스티칭 작업에 이용할 수 있다. 스티처는 스티칭 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 스티칭 과정의 메타데이터에는 스티칭이 수행되었는지 여부, 스티칭 타입 등의 정보들이 있을 수 있다.

프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 프로젝션 처리부는 다양한 스킴(scheme)에 따라 프로젝션을 수행할 수 있는데, 이에 대해서는 후술한다. 프로젝션 처리부는 각 시점별 360 비디오 데이터의 해당 뎁스(depth)를 고려하여 매핑을 수행할 수 있다. 프로젝션 처리부는 필요한 경우 메타데이터 처리부로부터 프로젝션에 필요한 메타데이터를 전달받아 프로젝션 작업에 이용할 수 있다. 프로젝션 처리부는 프로젝션 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 프로젝션 처리부의 메타데이터에는 프로젝션 스킴의 종류 등이 있을 수 있다.

리전별 패킹 처리부(도시되지 않음)는 전술한 리전별 패킹 과정을 수행할 수 있다. 즉, 리전별 패킹 처리부는 프로젝션된 360 비디오 데이터를 리전별로 나누고, 각 리전들을 회전, 재배열하거나, 각 리전의 레졸루션을 변경하는 등의 처리를 수행할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정이며, 리전별 패킹이 수행되지 않는 경우, 리전별 패킹 처리부는 생략될 수 있다. 리전별 패킹 처리부는 필요한 경우 메타데이터 처리부로부터 리전별 패킹에 필요한 메타데이터를 전달받아 리전별 패킹 작업에 이용할 수 있다. 리전별 패킹 처리부는 리전별 패킹 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 리전별 패킹 처리부의 메타데이터에는 각 리전의 회전 정도, 사이즈 등이 있을 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 리전별 패킹 처리부는 실시예에 따라 하나의 하드웨어 컴포넌트에서 수행될 수도 있다.

메타데이터 처리부는 캡처 과정, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타데이터들을 처리할 수 있다. 메타데이터 처리부는 이러한 메타데이터들을 이용하여 360 비디오 관련 메타데이터를 생성할 수 있다. 실시예에 따라 메타데이터 처리부는 360 비디오 관련 메타데이터를 시그널링 테이블의 형태로 생성할 수도 있다. 문맥에 따라 360 비디오 관련 메타데이터는 메타데이터 또는 360 비디오 관련 시그널링 정보라 불릴 수도 있다. 또한 메타데이터 처리부는 획득하거나 생성한 메타데이터들을 필요에 따라 360 비디오 전송 장치의 내부 엘레멘트들에 전달할 수 있다. 메타데이터 처리부는 360 비디오 관련 메타데이터가 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달할 수 있다.

데이터 인코더는 2D 이미지 상에 프로젝션된 360 비디오 데이터 및/또는 리전별 패킹된 360 비디오 데이터를 인코딩할 수 있다. 360 비디오 데이터는 다양한 포맷으로 인코딩될 수 있다.

인캡슐레이션 처리부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 파일 등의 형태로 인캡슐레이션할 수 있다. 여기서 360 비디오 관련 메타데이터는 전술한 메타데이터 처리부로부터 전달받은 것일 수 있다. 인캡슐레이션 처리부는 해당 데이터들을 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인캡슐레이션 처리부는 실시예에 따라 360 비디오 관련 메타데이터를 파일 포맷 상에 포함시킬 수 있다. 360 관련 메타데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나 파일 내에서 별도의 트랙내의 데이터로 포함될 수 있다. 실시예에 따라, 인캡슐레이션 처리부는 360 비디오 관련 메타데이터 자체를 파일로 인캡슐레이션할 수 있다.전송 처리부는 파일 포맷에 따라 인캡슐레이션된 360 비디오 데이터에 전송을 위한 처리를 가할 수 있다. 전송 처리부는 임의의 전송 프로토콜에 따라 360 비디오 데이터를 처리할 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리를 포함할 수 있다. 실시예에 따라 전송 처리부는 360 비디오 데이터 뿐 아니라, 메타데이터 처리부로부터 360 비디오 관련 메타데이터를 전달받아, 이 것에 전송을 위한 처리를 가할 수도 있다.

전송부는 전송 처리된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 방송망 및/또는 브로드밴드를 통해 전송할 수 있다. 전송부는 방송망을 통한 전송을 위한 엘레멘트 및/또는 브로드밴드를 통한 전송을 위한 엘레멘트를 포함할 수 있다.

본 발명에 따른 360 비디오 전송 장치의 일 실시예에 의하면, 360 비디오 전송 장치는 데이터 저장부(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 데이터 저장부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 전송 처리부로 전달하기 전에 저장하고 있을 수 있다. 이 데이터들이 저장되는 형태는 ISOBMFF 등의 파일 형태일 수 있다. 실시간으로 360 비디오를 전송하는 경우에는 데이터 저장부가 필요하지 않을 수 있으나, 온 디맨드, NRT (Non Real Time), 브로드밴드 등을 통해 전달하는 경우에는 인캡슐레이션된 360 데이터가 데이터 저장부에 일정 기간 저장되었다가 전송될 수도 있다.

본 발명에 따른 360 비디오 전송 장치의 다른 실시예에 의하면, 360 비디오 전송 장치는 (송신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 네트워크 인터페이스는 본 발명에 따른 360 비디오 수신 장치로부터 피드백 정보를 전달받고, 이를 송신측 피드백 처리부로 전달할 수 있다. 송신측 피드백 처리부는 피드백 정보를 스티처, 프로젝션 처리부, 리전별 패킹 처리부, 데이터 인코더, 인캡슐레이션 처리부, 메타데이터 처리부 및/또는 전송 처리부로 전달할 수 있다. 실시예에 따라 피드백 정보는 메타데이터 처리부에 일단 전달된 후, 다시 각 내부 엘레멘트들로 전달될 수 있다. 피드백 정보를 전달받은 내부 엘레먼트들은 이 후의 360 비디오 데이터의 처리에 피드백 정보를 반영할 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 리전별 패킹 처리부는 각 리전을 회전하여 2D 이미지 상에 매핑할 수 있다. 이 때 각 리전들은 서로 다른 방향, 서로 다른 각도로 회전되어 2D 이미지 상에 매핑될 수 있다. 리전의 회전은 360 비디오 데이터가 구형의 면 상에서 프로젝션 전에 인접했던 부분, 스티칭된 부분 등을 고려하여 수행될 수 있다. 리전의 회전에 관한 정보들, 즉 회전 방향, 각도 등은 360 비디오 관련 메타데이터에 의해 시그널링될 수 있다.본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각 리전 별로 다르게 인코딩을 수행할 수 있다. 데이터 인코더는 특정 리전은 높은 퀄리티로, 다른 리전은 낮은 퀄리티로 인코딩을 수행할 수 있다. 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 데이터 인코더로 전달하여, 데이터 인코더가 리전별 차등화된 인코딩 방법을 사용하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 퀄리티(UHD 등) 로 인코딩을 수행할 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 리전 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 리전 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 리전 별로 전달되는 데이터의 강건성(robustenss) 을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 리전별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

전술한 본 발명에 따른 360 비디오 전송 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 전송 장치에 추가될 수도 있다.

다른 측면에 따르면 본 발명은 360 비디오 수신 장치와 관련될 수 있다. 본 발명에 따른 360 비디오 수신 장치는 전술한 프로세싱 과정 및/또는 렌더링 과정에 관련된 동작들을 수행할 수 있다. 본 발명에 따른 360 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 데이터 디코더, 메타데이터 파서, (수신측) 피드백 처리부, 리-프로젝션 처리부 및/또는 렌더러를 내/외부 엘레멘트로서 포함할 수 있다.

수신부는 본 발명에 따른 360 비디오 전송 장치가 전송한 360 비디오 데이터를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 360 비디오 데이터를 수신할 수도 있고, 브로드밴드를 통하여 360 비디오 데이터를 수신할 수도 있다.

수신 처리부는 수신된 360 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 360 비디오 데이터는 디캡슐레이션 처리부로 전달하고, 획득한 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 수신 처리부가 획득하는 360 비디오 관련 메타데이터는 시그널링 테이블의 형태일 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 360 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일들을 디캡슐레이션하여, 360 비디오 데이터 내지 360 비디오 관련 메타데이터를 획득할 수 있다. 획득된 360 비디오 데이터는 데이터 디코더로, 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 디캡슐레이션 처리부가 획득하는 360 비디오 관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 파서로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다.

데이터 디코더는 360 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타데이터 파서로부터 디코딩에 필요한 메타데이터를 전달받을 수도 있다. 데이터 디코딩 과정에서 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달될 수도 있다.

메타데이터 파서는 360 비디오 관련 메타데이터에 대한 파싱/디코딩을 수행할 수 있다. 메타데이터 파서는 획득한 메타데이터를 데이터 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부 및/또는 렌더러로 전달할 수 있다.

리-프로젝션 처리부는 디코딩된 360 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 360 비디오 데이터를 3D 공간으로 리-프로젝션할 수 있다. 3D 공간은 사용되는 3D 모델에 따라 다른 형태를 가질 수 있다. 리-프로젝션 처리부는 메타데이터 파서로부터 리-프로젝션에 필요한 메타데이터를 전달받을 수도 있다. 예를 들어 리-프로젝션 처리부는 사용되는 3D 모델의 타입 및 그 세부 정보에 대한 정보를 메타데이터 파서로부터 전달받을 수 있다. 실시예에 따라 리-프로젝션 처리부는 리-프로젝션에 필요한 메타데이터를 이용하여, 3D 공간 상의 특정 영역에 해당하는 360 비디오 데이터만을 3D 공간으로 리-프로젝션할 수도 있다.

렌더러는 리-프로젝션된 360 비디오 데이터를 렌더링할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간상에 렌더링된다고 표현할 수도 있는데, 이처럼 두 과정이 한번에 일어나는 경우 리-프로젝션 처리부와 렌더러는 통합되어, 렌더러에서 이 과정들이 모두 진행될 수 있다. 실시예에 따라 렌더러는 사용자의 시점 정보에 따라 사용자가 보고 있는 부분만을 렌더링할 수도 있다.

사용자는 VR 디스플레이 등을 통하여 렌더링된 360 비디오의 일부 영역을 볼 수 있다. VR 디스플레이는 360 비디오를 재생하는 장치로서, 360 비디오 수신 장치에 포함될 수도 있고(tethered), 별도의 장치로서 360 비디오 수신 장치에 연결될 수도 있다(un-tethered).

본 발명에 따른 360 비디오 수신 장치의 일 실시예에 의하면, 360 비디오 수신 장치는 (수신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 처리부 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 뷰포트 정보, 헤드 오리엔테이션 정보, 게이즈(Gaze) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 수신측 피드백 처리부로부터 전달받고, 이를 360 비디오 전송 장치로 전송할 수 있다.

전술한 바와 같이, 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 수신측 피드백 처리부는 획득한 피드백 정보를 360 비디오 수신 장치의 내부 엘레멘트들로 전달하여, 렌더링 등의 과정에 반영되게 할 수 있다. 수신측 피드백 처리부는 피드백 정보를 렌더러, 리-프로젝션 처리부, 데이터 디코더 및/또는 디캡슐레이션 처리부로 전달할 수 있다. 예를 들어, 렌더러는 피드백 정보를 활용하여 사용자가 보고 있는 영역을 우선적으로 렌더링할 수 있다. 또한 디캡슐레이션 처리부, 데이터 디코더 등은 사용자가 보고 있는 영역 내지 보게될 영역을 우선적으로 디캡슐레이션, 디코딩할 수 있다.

전술한 본 발명에 따른 360 비디오 수신 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 수신 장치에 추가될 수도 있다.

본 발명의 또 다른 측면은 360 비디오를 전송하는 방법 및 360 비디오를 수신하는 방법과 관련될 수 있다. 본 발명에 따른 360 비디오를 전송/수신하는 방법은, 각각 전술한 본 발명에 따른 360 비디오 전송/수신 장치 또는 그 장치의 실시예들에 의해 수행될 수 있다.

전술한 본 발명에 따른 360 비디오 전송/수신 장치, 전송/수신 방법의 각각의 실시예 및 그 내/외부 엘리멘트 각각의 실시예들을 서로 조합될 수 있다. 예를 들어 프로젝션 처리부의 실시예들과, 데이터 인코더의 실시예들은 서로 조합되어, 그 경우의 수만큼의 360 비디오 전송 장치의 실시예들을 만들어 낼 수 있다. 이렇게 조합된 실시예들 역시 본 발명의 범위에 포함된다.

전술한 바와 같이, 도시된 (a) 와 같은 아키텍처에 의하여 360 컨텐츠가 제공될 수 있다. 360 컨텐츠는 파일 형태로 제공되거나, DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있다. 여기서 360 컨텐츠는 VR 컨텐츠로 불릴 수 있다.

전술한 바와 같이 360 비디오 데이터 및/또는 360 오디오 데이터가 획득될 수 있다(Acquisition).

360 오디오 데이터는 오디오 프리-프로세싱 과정(Audio Preprocessing), 오디오 인코딩 과정(Audio encoding)을 거칠 수 있다. 이 과정에서 오디오 관련 메타데이터가 생성될 수 있으며, 인코딩된 오디오와 오디오 관련 메타데이터는 전송을 위한 처리(file/segment encapsulation)를 거칠 수 있다.

360 비디오 데이터는 전술한 것과 같은 과정을 거칠 수 있다. 360 비디오 전송 장치의 스티처는 360 비디오 데이터에 스티칭을 수행할 수 있다(Visual stitching). 이 과정은 실시예에 따라 생략되고 수신측에서 수행될 수도 있다. 360 비디오 전송 장치의 프로젝션 처리부는 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다(Projection and mapping(packing)).

이 스티칭 및 프로젝션 과정은 (b) 에 구체적으로 도시되었다. 도시된 (b) 에서, 360 비디오 데이터(Input Images) 를 전달받으면, 이에 스티칭 및 프로젝션이 수행될 수 있다. 프로젝션 과정은 구체적으로 스티칭된 360 비디오 데이터를 3D 공간 상으로 프로젝션하고, 프로젝션된 360 비디오 데이터가 2D 이미지 상으로 배열되는 것으로 볼 수 있다. 본 명세서에서 이 과정을 360 비디오 데이터를 2D 이미지 상으로 프로젝션한다고 표현할 수도 있다. 여기서 3D 공간은 구(sphere) 또는 큐브(cube) 등일 수 있다. 이 3D 공간은 수신측에서 리-프로젝션에 사용되는 3D 공간과 같을 수도 있다.

2D 이미지는 프로젝티드 프레임(C, Projected frame) 이라 불릴 수도 있다. 이 2D 이미지에 리전별 패킹(Region-wise packing) 이 선택적으로 더 수행될 수도 있다. 리전별 패킹이 수행되는 경우, 각 리전(Region)의 위치, 형태, 크기를 지시함으로써, 2D 이미지 상의 리전들이 팩드 프레임(D, packed frame) 상으로 매핑될 수 있다. 리전별 패킹이 수행되지 않는 경우, 프로젝티드 프레임은 팩드 프레임과 같을 수 있다. 리전에 대해서는 후술한다. 프로젝션 과정 및 리전별 패킹 과정을, 360 비디오 데이터의 각 리전들이 2D 이미지 상에 프로젝션된다고 표현할 수도 있다. 설계에 따라, 360 비디오 데이터는 중간 과정 없이 팩드 프레임으로 바로 변환될 수도 있다.

도시된 (a) 에서, 프로젝션된 360 비디오 데이터는 이미지 인코딩 내지 비디오 인코딩될 수 있다. 같은 컨텐트라도 다른 시점(viewpoints)별로 존재할 수 있으므로, 같은 컨텐트가 서로 다른 비트 스트림으로 인코딩될 수도 있다. 인코딩된 360 비디오 데이터는 전술한 인캡슐레이션 처리부에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인캡슐레이션 처리부는 인코딩된 360 비디오 데이터를 세그먼트들로 처리할 수 있다. 세그먼트들은 DASH 에 기반한 전송을 위한 개별 트랙에 포함될 수 있다.

360 비디오 데이터의 처리와 함께, 전술한 것과 같이 360 비디오 관련 메타데이터가 생성될 수 있다. 이 메타데이터는 비디오 스트림 혹은 파일 포맷에 포함되어 전달될 수 있다. 이 메타데이터는 인코딩 과정이나 파일 포맷 인캡슐레이션, 전송을 위한 처리 등과 같은 과정에도 쓰일 수 있다.

360 오디오/비디오 데이터는 전송 프로토콜에 따라 전송을 위한 처리를 거치고, 이후 전송될 수 있다. 전술한 360 비디오 수신 장치는 이를 방송망 또는 브로드밴드를 통해 수신할 수 있다.

도시된 (a) 에서 VR 서비스 플랫폼(VR service platform) 은 전술한 360 비디오 수신 장치의 일 실시예에 해당할 수 있다. 도시된 (a) 에서 스피커/헤드폰(Loudspeakers/headphones), 디스플레이(Display), 헤드/아이 트랙킹 컴포넌트(Head/eye tracking) 는 360 비디오 수신 장치의 외부 장치 내지 VR 어플리케이션에 의해 수행되는 것으로 도시되었는데, 실시예에 따라 360 비디오 수신 장치는 이 들을 모두 포함할 수도 있다. 실시예에 따라 헤드/아이 트랙킹 컴포넌트는 전술한 수신측 피드백 처리부에 해당할 수 있다.

360 비디오 수신 장치는 360 오디오/비디오 데이터에 수신을 위한 처리(File/segment decapsulation)를 수행할 수 있다. 360 오디오 데이터는 오디오 디코딩(Audio decoding), 오디오 렌더링(Audio rendering) 과정을 거쳐 스피커/헤드폰을 통해 사용자에게 제공될 수 있다.

360 비디오 데이터는 이미지 디코딩 내지 비디오 디코딩, 렌더링(Visual rendering) 과정을 거쳐 디스플레이를 통해 사용자에게 제공될 수 있다. 여기서 디스플레이는 VR 을 지원하는 디스플레이거나 일반 디스플레이일 수 있다.

전술한 바와 같이 렌더링 과정은 구체적으로, 360 비디오 데이터가 3D 공간 상에 리-프로젝션되고, 리-프로젝션된 360 비디오 데이터가 렌더링되는 것으로 볼 수 있다. 이를 360 비디오 데이터가 3D 공간 상에 렌더링된다고 표현할 수도 있다.

헤드/아이 트랙킹 컴포넌트는 사용자의 헤드 오리엔테이션 정보, 게이즈 정보, 뷰포트(Viewport) 정보 등을 획득, 처리할 수 있다. 이에 대해서는 전술하였다.

수신측에서는 전술한 수신측 과정들과 통신하는 VR 어플리케이션이 존재할 수 있다.

본 발명에서, 3D 공간에서의 특정 지점, 위치, 방향, 간격, 영역 등을 표현하기 위하여 비행기 주축 개념이 사용될 수 있다.

즉, 본 발명에서 프로젝션 전 또는 리-프로젝션 후의 3D 공간에 대해 기술하고, 그에 대한 시그널링을 수행하기 위하여 비행기 주축 개념이 사용될 수 있다. 실시예에 따라 X, Y, Z 축 개념 또는 구 좌표계를 이용한 방법이 사용될 수도 있다.

비행기는 3 차원으로 자유롭게 회전할 수 있다. 3차원을 이루는 축을 각각 피치(pitch) 축, 야(yaw) 축 및 롤(roll) 축이라고 한다. 본 명세서에서 이 들을 줄여서 pitch, yaw, roll 내지 pitch 방향, yaw 방향, roll 방향이라고 표현할 수도 있다.

Pitch 축은 비행기의 앞코가 위/아래로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 pitch 축은 비행기의 날개에서 날개로 이어지는 축을 의미할 수 있다.

Yaw 축은 비행기의 앞코가 좌/우로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 yaw 축은 비행기의 위에서 아래로 이어지는 축을 의미할 수 있다.

Roll 축은 도시된 비행기 주축 개념에서 비행기의 앞코에서 꼬리로 이어지는 축으로서, roll 방향의 회전이란 roll 축을 기준으로 한 회전을 의미할 수 있다.

전술한 바와 같이, pitch, yaw, roll 개념을 통해 본 발명에서의 3D 공간이 기술될 수 있다.

전술한 바와 같이 본 발명에 따른 360 비디오 전송 장치의 프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 이 과정에서 다양한 프로젝션 스킴들이 활용될 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 큐빅 프로젝션(Cubic Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 예를 들어 스티칭된 360 비디오 데이터는 구형의 면 상에 나타내어질 수 있다. 프로젝션 처리부는 이러한 360 비디오 데이터를 큐브(Cube, 정육면체) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 큐브의 각 면에 대응되어, 2D 이미지 상에 (a) 좌측 또는 (a) 우측과 같이 프로젝션될 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 실린더형 프로젝션(Cylindrical Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 실린더(Cylinder) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 실린더의 옆면(side)과 윗면(top), 바닥면(bottom) 에 각각 대응되어, 2D 이미지 상에 (b) 좌측 또는 (b) 우측과 같이 프로젝션될 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 피라미드 프로젝션(Pyramid Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 피라미드 형태로 보고, 각 면을 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 피라미드의 바닥면(front), 피라미드의 4방향의 옆면(Left top, Left bottom, Right top, Right bottom) 에 각각 대응되어, 2D 이미지 상에 (c) 좌측 또는 (c) 우측과 같이 프로젝션될 수 있다.

실시예에 따라 프로젝션 처리부는 전술한 스킴들 외에 등정방형 프로젝션(Equirectangular Projection) 스킴, 파노라믹 프로젝션(Panoramic Projection) 스킴 등을 이용하여 프로젝션을 수행할 수도 있다.

전술한 바와 같이 리전(Region) 이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은 프로젝션 스킴에 따라 프로젝션된 2D 이미지 상의 각 면들과 일치할 필요는 없다. 그러나 실시예에 따라, 프로젝션된 2D 이미지 상의 각 면들이 리전과 대응되도록 리전이 구분되어, 리전별 패킹이 수행될 수도 있다. 실시예에 따라 복수개의 면들이 하나의 리전에 대응될 수도 있고, 하나의 면이 복수개의 리전에 대응되게 리전이 구분될 수도 있다. 이 경우, 리전은 프로젝션 스킴에 따라 달라질 수 있다. 예를 들어 (a) 에서 정육면체의 각 면들(top, bottom, front, left, right, back) 은 각각 리전일 수 있다. (b) 에서 실린더의 옆면(side), 윗면(top), 바닥면(bottom) 은 각각 리전일 수 있다. (c) 에서 피라미드의 바닥면(front), 4방향 옆면(Left top, Left bottom, Right top, Right bottom) 들은 각각 리전일 수 있다.

2D 이미지에 프로젝션된 360 비디오 데이터 또는 리전별 패킹까지 수행된 360 비디오 데이터는 하나 이상의 타일로 구분될 수 있다. 도시된 (a) 는 하나의 2D 이미지가 16 개의 타일로 나뉘어진 형태를 도시하고 있다. 여기서 2D 이미지란 전술한 프로젝티드 프레임 내지는 팩드 프레임일 수 있다. 본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각각의 타일을 독립적으로 인코딩할 수 있다.

전술한 리전별 패킹과 타일링(Tiling)은 구분될 수 있다. 전술한 리전별 패킹은 코딩 효율을 높이기 위해 또는 레졸루션을 조정하기 위하여 2D 이미지상에 프로젝션된 360 비디오 데이터를 리전으로 구분하여 처리하는 것을 의미할 수 있다. 타일링은 데이터 인코더가 프로젝티드 프레임 내지는 팩드 프레임을 타일이라는 구획별로 나누고, 해당 타일들 별로 독립적으로 인코딩을 수행하는 것을 의미할 수 있다. 360 비디오가 제공될 때, 사용자는 360 비디오의 모든 부분을 동시에 소비하지 않는다. 타일링은 제한된 밴드위스(bandwidth)상에서 사용자가 현재 보는 뷰포트 등 중요 부분 내지 일정 부분에 해당하는 타일만을 수신측으로 전송 혹은 소비하는 것을 가능케할 수 있다. 타일링을 통해 제한된 밴드위스가 더 효율적으로 활용될 수 있고, 수신측에서도 모든 360 비디오 데이터를 한번에 다 처리하는 것에 비하여 연산 부하를 줄일 수 있다.

리전과 타일은 구분되므로, 두 영역이 같을 필요는 없다. 그러나 실시예에 따라 리전과 타일은 같은 영역을 지칭할 수도 있다. 실시예에 따라 타일에 맞추어 리전별 패킹이 수행되어 리전과 타일이 같아질 수 있다. 또한 실시예에 따라, 프로젝션 스킴에 따른 각 면과 리전이 같은 경우, 프로젝션 스킴에 따른 각 면, 리전, 타일이 같은 영역을 지칭할 수도 있다. 문맥에 따라 리전은 VR 리전, 타일을 타일 리전으로 불릴 수도 있다.

ROI (Region of Interest) 는 360 컨텐츠 제공자가 제안하는, 사용자들의 관심 영역을 의미할 수 있다. 360 컨텐츠 제공자는 360 비디오를 제작할 때, 어느 특정 영역을 사용자들이 관심있어 할 것으로 보고, 이를 고려하여 360 비디오를 제작할 수 있다. 실시예에 따라 ROI 는 360 비디오의 컨텐츠 상, 중요한 내용이 재생되는 영역에 해당할 수 있다.

본 발명에 따른 360 비디오 전송/수신 장치의 또 다른 실시예에 의하면, 수신측 피드백 처리부는 뷰포트 정보를 추출, 수집하여 이를 송신측 피드백 처리부로 전달할 수 있다. 이 과정에서 뷰포트 정보는 양 측의 네트워크 인터페이스를 이용해 전달될 수 있다. 도시된 (a) 의 2D 이미지에서 뷰포트 (t6010) 가 표시되었다. 여기서 뷰포트 는 2D 이미지 상의 9 개의 타일에 걸쳐 있을 수 있다.

이 경우 360 비디오 전송 장치는 타일링 시스템을 더 포함할 수 있다. 실시예에 따라 타일링 시스템은 데이터 인코더 다음에 위치할 수도 있고(도시된 (b)), 전술한 데이터 인코더 내지 전송 처리부 내에 포함될 수도 있고, 별개의 내/외부 엘리먼트로서 360 비디오 전송 장치에 포함될 수 있다.

타일링 시스템은 송신측 피드백 처리부로부터 뷰포트 정보를 전달받을 수 있다. 타일링 시스템은 뷰포트 영역이 포함되는 타일만을 선별하여 전송할 수 있다. 도시된 (a) 의 2D 이미지에서 총 16 개의 타일 중 뷰포트 영역(t6010) 을 포함하는 9 개의 타일들만이 전송될 수 있다. 여기서 타일링 시스템은 브로드밴드를 통한 유니캐스트 방식으로 타일들을 전송할 수 있다. 사용자에 따라 뷰포트 영역이 다르기 때문이다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 퀄리티로 인코딩을 수행할 수 있다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 메타데이터 처리부로 전달할 수 있다. 메타데이터 처리부는 뷰포트 영역과 관련된 메타데이터 를 360 비디오 전송 장치의 각 내부 엘레먼트로 전달해주거나, 360 비디오 관련 메타데이터에 포함시킬 수 있다.

이러한 타일링 방식을 통하여, 전송 밴드위스(bandwidth)가 절약될 수 있으며, 타일 별로 차등화된 처리를 수행하여 효율적 데이터 처리/전송이 가능해질 수 있다.

전술한 뷰포트 영역과 관련된 실시예들은 뷰포트 영역이 아닌 다른 특정 영역들에 대해서도 유사한 방식으로 적용될 수 있다. 예를 들어, 전술한 게이즈 분석을 통해 사용자들이 주로 관심있어 하는 것으로 판단된 영역, ROI 영역, 사용자가 VR 디스플레이를 통해 360 비디오를 접할 때 처음으로 재생되는 영역(초기 시점, Initial Viewpoint) 등에 대해서도, 전술한 뷰포트 영역과 같은 방식의 처리들이 수행될 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 타일 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 타일 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 타일 별로 전달되는 데이터의 강건성(robustenss)을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 타일별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

전술한 360 비디오 관련 메타데이터는 360 비디오에 대한 다양한 메타데이터를 포함할 수 있다. 문맥에 따라, 360 비디오 관련 메타데이터는 360 비디오 관련 시그널링 정보라고 불릴 수도 있다. 360 비디오 관련 메타데이터는 별도의 시그널링 테이블에 포함되어 전송될 수도 있고, DASH MPD 내에 포함되어 전송될 수도 있고, ISOBMFF 등의 파일 포맷에 box 형태로 포함되어 전달될 수도 있다. 360 비디오 관련 메타데이터가 box 형태로 포함되는 경우 파일, 프래그먼트, 트랙, 샘플 엔트리, 샘플 등등 다양한 레벨에 포함되어 해당되는 레벨의 데이터에 대한 메타데이터를 포함할 수 있다.

실시예에 따라, 후술하는 메타데이터의 일부는 시그널링 테이블로 구성되어 전달되고, 나머지 일부는 파일 포맷 내에 box 혹은 트랙 형태로 포함될 수도 있다.

본 발명에 따른 360 비디오 관련 메타데이터의 일 실시예에 의하면, 360 비디오 관련 메타데이터는 프로젝션 스킴 등에 관한 기본 메타데이터, 스테레오스코픽(stereoscopic) 관련 메타데이터, 초기 시점(Initial View/Initial Viewpoint) 관련 메타데이터, ROI 관련 메타데이터, FOV (Field of View) 관련 메타데이터 및/또는 크롭된 영역(cropped region) 관련 메타데이터를 포함할 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 메타데이터를 더 포함할 수 있다.

본 발명에 따른 360 비디오 관련 메타데이터의 실시예들은 전술한 기본 메타데이터, 스테레오스코픽 관련 메타데이터, 초기 시점 관련 메타데이터, ROI 관련 메타데이터, FOV 관련 메타데이터, 크롭된 영역 관련 메타데이터 및/또는 이후 추가될 수 있는 메타데이터들 중 적어도 하나 이상을 포함하는 형태일 수 있다. 본 발명에 따른 360 비디오 관련 메타데이터의 실시예들은, 각각 포함하는 세부 메타데이터들의 경우의 수에 따라 다양하게 구성될 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 정보들을 더 포함할 수도 있다.

기본 메타데이터에는 3D 모델 관련 정보, 프로젝션 스킴 관련 정보 등이 포함될 수 있다. 기본 메타데이터에는 vr_geometry 필드, projection_scheme 필드 등이 포함될 수 있다. 실시예에 따라 기본 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

vr_geometry 필드는 해당 360 비디오 데이터가 지원하는 3D 모델의 타입을 지시할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간 상에 리-프로젝션되는 경우, 해당 3D 공간은 vr_geometry 필드가 지시하는 3D 모델에 따른 형태를 가질 수 있다. 실시예에 따라, 렌더링시에 사용되는 3D 모델은 vr_geometry 필드가 지시하는 리-프로젝션에 사용되는 3D 모델과 다를 수도 있다. 이 경우, 기본 메타데이터는 렌더링시에 사용되는 3D 모델을 지시하는 필드를 더 포함할 수도 있다. 해당 필드가 0, 1, 2, 3 의 값을 가지는 경우 3D 공간은 각각 구형(Sphere), 큐브(Cube), 실린더(Cylinder), 피라미드(Pyramid)의 3D 모델을 따를 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 지시되는 3D 모델에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 3D 모델에 대한 구체적인 정보란 예를 들어 구형의 반지름 정보, 실린더의 높이 정보 등을 의미할 수 있다. 본 필드는 생략될 수 있다.

projection_scheme 필드는 해당 360 비디오 데이터가 2D 이미지 상에 프로젝션될 때 사용된 프로젝션 스킴을 지시할 수 있다. 해당 필드가 0, 1, 2, 3, 4, 5 의 값을 가지는 경우, 각각 등정방형 프로젝션(Equirectangular Projection) 스킴, 큐빅 프로젝션 스킴, 실린더형 프로젝션 스킴, 타일-베이스드(Tile-based) 프로젝션 스킴, 피라미드 프로젝션 스킴, 파노라믹 프로젝션 스킴이 사용되었을 수 있다. 해당 필드가 6 의 값을 가지는 경우는, 360 비디오 데이터가 스티칭 없이 바로 2D 이미지 상에 프로젝션된 경우일 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 특정되는 프로젝션 스킴에 의해 발생한 리전(Region)에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 리전에 대한 구체적인 정보란 예를 들어 리전의 회전 여부, 실린더의 윗면(top) 리전의 반지름 정보 등을 의미할 수 있다.

스테레오스코픽 관련 메타데이터는 360 비디오 데이터의 3D 관련 속성들에 대한 정보들을 포함할 수 있다. 스테레오스코픽 관련 메타데이터는 is_stereoscopic 필드 및/또는 stereo_mode 필드를 포함할 수 있다. 실시예에 따라 스테레오스코픽 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_stereoscopic 필드는 해당 360 비디오 데이터가 3D 를 지원하는지 여부를 지시할 수 있다. 해당 필드가 1 이면 3D 지원, 0 이면 3D 미지원을 의미할 수 있다. 본 필드는 생략될 수 있다.

stereo_mode 필드는 해당 360 비디오가 지원하는 3D 레이아웃을 지시할 수 있다. 본 필드만으로 해당 360 비디오가 3D 를 지원하는지 여부를 지시할 수도 있는데, 이 경우 전술한 is_stereoscopic 필드는 생략될 수 있다. 본 필드 값이 0 인 경우, 해당 360 비디오는 모노(mono) 모드일 수 있다. 즉 프로젝션된 2D 이미지는 하나의 모노 뷰(mono view) 만을 포함할 수 있다. 이 경우 해당 360 비디오는 3D 를 지원하지 않을 수 있다.

본 필드 값이 1, 2 인 경우, 해당 360 비디오는 각각 좌우(Left-Right) 레이아웃, 상하(Top-Bottom) 레이아웃에 따를 수 있다. 좌우 레이아웃, 상하 레이아웃은 각각 사이드-바이-사이드 포맷, 탑-바텀 포맷으로 불릴 수도 있다. 좌우 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 좌/우로 위치할 수 있다. 상하 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 위/아래로 위치할 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use).

초기 시점 관련 메타데이터는 사용자가 360 비디오를 처음 재생했을 때 보게되는 시점(초기 시점)에 대한 정보를 포함할 수 있다. 초기 시점 관련 메타데이터는 initial_view_yaw_degree 필드, initial_view_pitch_degree 필드 및/또는 initial_view_roll_degree 필드를 포함할 수 있다. 실시예에 따라 초기 시점 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

initial_view_yaw_degree 필드, initial_view_pitch_degree 필드, initial_view_roll_degree 필드는 해당 360 비디오 재생 시의 초기 시점을 나타낼 수 있다. 즉, 재생시 처음 보여지는 뷰포트의 정중앙 지점이, 이 세 필드들에 의해 나타내어질 수 있다. 각 필드는 그 정중앙 지점이 위치를 yaw, pitch, roll 축을 기준으로 회전된 방향(부호) 및 그 정도(각도)로 나타낼 수 있다. 이 때 FOV 에 따라 처음 재생시 보여지게 되는 뷰포트가 결정될 수 있다. FOV 를 통하여, 지시된 초기 시점을 기준으로 한, 초기 뷰포트의 가로길이 및 세로길이(width, height) 가 결정될 수 있다. 즉, 이 세 필드들 및 FOV 정보를 이용하여, 360 비디오 수신 장치는 사용자에게 360 비디오의 일정 영역을 초기 뷰포트로서 제공할 수 있다.

실시예에 따라, 초기 시점 관련 메타데이터가 지시하는 초기 시점은, 장면(scene) 별로 변경될 수 있다. 즉, 360 컨텐츠의 시간적 흐름에 따라 360 비디오의 장면이 바뀌게 되는데, 해당 360 비디오의 장면마다 사용자가 처음 보게되는 초기 시점 내지 초기 뷰포트가 변경될 수 있다. 이 경우, 초기 시점 관련 메타데이터는 각 장면별로의 초기 시점을 지시할 수 있다. 이를 위해 초기 시점 관련 메타데이터는, 해당 초기 시점이 적용되는 장면을 식별하는 장면(scene) 식별자를 더 포함할 수도 있다. 또한 360 비디오의 장면별로 FOV 가 변할 수도 있으므로, 초기 시점 관련 메타데이터는 해당 장면에 해당하는 FOV 를 나타내는 장면별 FOV 정보를 더 포함할 수도 있다.

ROI 관련 메타데이터는 전술한 ROI 에 관련된 정보들을 포함할 수 있다. ROI 관련 메타데이터는, 2d_roi_range_flag 필드 및/또는 3d_roi_range_flag 필드를 포함할 수 있다. 두 필드는 각각 ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는지, 3D 공간을 기준으로 ROI 를 표현하는 필드들을 포함하는지 여부를 지시할 수 있다. 실시예에 따라 ROI 관련 메타데이터는, ROI 에 따른 차등 인코딩 정보, ROI 에 따른 차등 전송처리 정보 등 추가적인 정보들을 더 포함할 수도 있다.

ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드, min_width 필드, max_width 필드, min_height 필드, max_height 필드, min_x 필드, max_x 필드, min_y 필드 및/또는 max_y 필드를 포함할 수 있다.

min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드는 ROI 의 좌측 상단 끝의 좌표의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 좌상단 끝의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다.

min_width 필드, max_width 필드, min_height 필드, max_height 필드는 ROI 의 가로 크기(width), 세로 크기(height)의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 가로 크기의 최소값, 가로 크기의 최대값, 세로 크기의 최소값, 세로 크기의 최대값을 나타낼 수 있다.

min_x 필드, max_x 필드, min_y 필드, max_y 필드는 ROI 내의 좌표들의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 ROI 내 좌표들의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다. 이 필드들은 생략될 수 있다.

ROI 관련 메타데이터가 3D 랜더링 공간 상의 좌표 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드, min_field_of_view 필드 및/또는 max_field_of_view 필드를 포함할 수 있다.

min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드는 ROI 가 3D 공간상에서 차지하는 영역을 yaw, pitch, roll 의 최소/최대값으로 나타낼 수 있다. 이 필드들은 차례로 yaw 축 기준 회전량의 최소값, yaw 축 기준 회전량의 최대값, pitch 축 기준 회전량의 최소값, pitch 축 기준 회전량의 최대값, roll 축 기준 회전량의 최소값, roll 축 기준 회전량의 최대값을 나타낼 수 있다.

min_field_of_view 필드, max_field_of_view 필드는 해당 360 비디오 데이터의 FOV 의 최소/최대값을 나타낼 수 있다. FOV 는 360 비디오의 재생시 한번에 디스플레이되는 시야범위를 의미할 수 있다. min_field_of_view 필드, max_field_of_view 필드는 각각 FOV 의 최소값, 최대값을 나타낼 수 있다. 이 필드들은 생략될 수 있다. 이 필드들은 후술할 FOV 관련 메타데이터에 포함될 수도 있다.

FOV 관련 메타데이터는 전술한 FOV 에 관련한 정보들을 포함할 수 있다. FOV 관련 메타데이터는 content_fov_flag 필드 및/또는 content_fov 필드를 포함할 수 있다. 실시예에 따라 FOV 관련 메타데이터는 전술한 FOV 의 최소/최대값 관련 정보 등 추가적인 정보들을 더 포함할 수도 있다.

content_fov_flag 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보가 존재하는지 여부를 지시할 수 있다. 본 필드값이 1인 경우, content_fov 필드가 존재할 수 있다.

content_fov 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보를 나타낼 수 있다. 실시예에 따라 해당 360 비디오 수신 장치의 수직(vertical) 혹은 수평(horizontal) FOV 에 따라, 360 영상 중에서 사용자에게 한번에 디스플레이되는 영역이 결정될 수 있다. 혹은 실시예에 따라 본 필드의 FOV 정보를 반영하여 사용자에게 한번에 디스플레이되는 360 비디오의 영역이 결정될 수도 있다.

크롭된 영역 관련 메타데이터는 이미지 프레임 상에서 실제 360 비디오 데이터를 포함하는 영역에 대한 정보를 포함할 수 있다. 이미지 프레임은 실제 360 비디오 데이터 프로젝션된 액티브 비디오 영역(Active Video Area)과 그렇지 않은 영역을 포함할 수 있다. 이 때 액티브 비디오 영역은 크롭된 영역 또는 디폴트 디스플레이 영역이라고 칭할 수 있다. 이 액티브 비디오 영역은 실제 VR 디스플레이 상에서 360 비디오로서 보여지는 영역으로서, 360 비디오 수신 장치 또는 VR 디스플레이는 액티브 비디오 영역만을 처리/디스플레이할 수 있다. 예를 들어 이미지 프레임의 종횡비(aspect ratio) 가 4:3 인 경우 이미지 프레임의 윗 부분 일부와 아랫부분 일부를 제외한 영역만 360 비디오 데이터를 포함할 수 있는데, 이 부분을 액티브 비디오 영역이라고 할 수 있다.

크롭된 영역 관련 메타데이터는 is_cropped_region 필드, cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드 및/또는 cr_region_height 필드를 포함할 수 있다. 실시예에 따라 크롭된 영역 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_cropped_region 필드는 이미지 프레임의 전체 영역이 360 비디오 수신 장치 내지 VR 디스플레이에 의해 사용되는지 여부를 나타내는 플래그일 수 있다. 즉, 본 필드는 이미지 프레임 전체가 액티브 비디오 영역인지 여부를 지시할 수 있다. 이미지 프레임의 일부만이 액티브 비디오 영역인 경우, 하기의 4 필드가 더 추가될 수 있다.

cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드, cr_region_height 필드는 이미지 프레임 상에서 액티브 비디오 영역을 나타낼 수 있다. 이 필드들은 각각 액티브 비디오 영역의 좌상단의 x 좌표, 액티브 비디오 영역의 좌상단의 y 좌표, 액티브 비디오 영역의 가로 길이(width), 액티브 비디오 영역의 세로 길이(height) 를 나타낼 수 있다. 가로 길이와 세로 길이는 픽셀을 단위로 나타내어질 수 있다.

전술한 바와 같이, 360도 비디오 관련 시그널링 정보 또는 메타데이터는 임의로 정의된 시그널링 테이블에 포함될 수 있고, ISOBMFF 또는 Common File Format 등의 파일 포맷에 box형태로 포함될 수도 있으며, DASH MPD 내에 포함되어 전송될 수도 있다. 또한, 360도 미디어 데이터는 이러한 파일 포맷 또는 DASH segment에 포함되어 전송될 수도 있다.

이하, ISOBMFF 및 DASH MPD에 대해 순차적으로 설명한다.

본 발명은360 비디오 기반 VR 시스템은 전술한 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 이러한 방법을 3DoF (three degree of freedom) plus라고 명명할 수 있다. 구체적으로, 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 VR 시스템은 3DoF 기반 VR 시스템이라고 불릴 수 있다.

한편, 동일 시간대에서 서로 다른 위치 (viewpoint), 서로 다른 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 VR 시스템은 3DoF+ 또는 3DoF plus 기반 VR 시스템라고 불릴 수 있다.

1) (a)와 같은 공간(공연장의 예)을 가정했을 때, 서로 다른 위치(붉은색 동그라미로 표시된 공연장의 위치의 예)를 각각의 viewpoint로 고려할 수 있다. 이 때, 예제와 같이 동일 공간에 존재하는 각 viewpoint에서 제공되는 영상/음성은 동일한 시간 흐름을 가질 수 있다.

2) 이 경우 특정 위치에서 사용자의 시점 변화(head motion)에 따라 서로 다른 시각적/청각적 경험 제공할 수 있다. 즉, 특정 viewpoint에 대해 (b)에 도시된 바와 같은 다양한 viewing position의 sphere를 가정할 수 있으며, 각 시점의 상대적인 위치를 반영한 영상/음성/텍스트 정보를 제공할 수 있다.

3) 한편, (c)에 도시된 바와 같이 특정 위치의 특정 시점에서는 기존의 3DoF와 같이 다양한 방향의 시각적/청각적 정보를 전달할 수 있다. 이 때, main source(영상/음성/텍스트) 뿐만 아니라 추가적인 다양한 소스를 통합하여 제공할 수 있으며, 이는 사용자의 시청 방향 (viewing orientation)과 연계되거나 독립적으로 정보를 전달할 수 있다.

도 10은 3DoF+ 의 영상획득, 전처리, 전송, (후)처리, 렌더링 및 피드백 과정을 포함한 3DoF+ end-to-end system 흐름도에 대한 예시이다.

1) Acquisition: 360 비디오의 캡쳐, 합성 또는 생성 과정 등을 통한 360 비디오를 획득하는 과정을 의미할 수 있다. 이 과정을 통하여 다수의 위치에 대해 head motion에 따른 다수의 영상/음성 정보를 획득할 수 있다. 이 때, 영상 정보는 시각적 정보(texture) 뿐 아니라 깊이 정보(depth)를 포함할 수 있다. 이 때 a의 영상 정보 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 정보를 각각 획득할 수 있다.

2) Composition: 영상/음성 입력 장치를 통해 획득한 정보 뿐 아니라 외부 미디어를 통한 영상(비디오/이미지 등), 음성(오디오/효과음향 등), 텍스트(자막 등)을 사용자 경험에 포함하기 위해 합성하기 위한 방법을 정의할 수 있다.

3) Pre-processing: 획득된 360 비디오의 전송/전달을 위한 준비(전처리) 과정으로서, 스티칭, 프로젝션, 리전별 패킹 과정 및/또는 인코딩 과정 등을 포함할 수 있다. 즉, 이 과정은 영상/음성/텍스트 정보를 제작자의 의도에 따라 데이터를 변경/보완 하기위한 전처리 과정 및 인코딩 과정이 포함될 수 있다. 예를 들어 영상의 전처리 과정에서는 획득된 시각 정보를 360 sphere 상에 매핑하는 작업(stitching), 영역 경계를 없애거나 색상/밝기 차이를 줄이거나 영상의 시각적 효과를 주는 보정 작업(editing), 시점에 따른 영상을 분리하는 과정(view segmentation), 360 sphere 상의 영상을 2D 영상으로 매핑하는 프로젝션 과정(projection), 영역에 따라 영상을 재배치 하는 과정 (region-wise packing), 영상 정보를 압축하는 인코딩 과정이 포함될 수 있다. B의 비디오 측면의 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 프로젝션 영상이 생성될 수 있다.

4) Delivery: 준비 과정(전처리 과정)을 거친 영상/음성 데이터 및 메타데이터들을 처리하여 전송하는 과정을 의미할 수 있다. 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 영상/음성 데이터 및 관련 메타데이터를 전달하는 방법으로써 전술한 바와 같이 방송망, 통신망을 이용하거나, 단방향 전달 등의 방법을 사용할 수 있다.

5) Post-processing & composition: 수신된/저장된 비디오/오디오/텍스트 데이터를 디코딩하고 최종 재생을 위한 후처리 과정을 의미할 수 있다. 예를 들어 후처리 과정은 전술한 바와 같이 패킹 된 영상을 풀어주는 언패킹 및 2D 프로젝션 된 영상을 3D 구형 영상으로복원하는 리-프로젝션 과정 등이 포함될 수 있다.

6) Rendering: 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 이 과정에서 영상/음성 신호를 최종적으로 출력하기 위한 형태로 재구성할 수 있다. 사용자의 관심영역이 존재하는 방향(viewing orientation), 시점(viewing position/head position), 위치(viewpoint)를 추적할 수 있으며, 이 정보에 따라 필요한 영상/음성/텍스트 정보만을 선택적으로 사용할 수 있다. 이 때, 영상 신호의 경우 사용자의 관심영역에 따라 c와 같이 서로 다른 시점을 선택할 수 있으며, 최종적으로 d와 같이 특정 위치에서의 특정 시점의 특정 방향의 영상을 출력할 수 있다.

7) Feedback: 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 본 실시예의 경우 사용자 관심영역의 방향(viewing orientation), 시점(viewing position), 위치(viewpoint)를 추정하고, 이를 기반으로 영상/음성을 재생할 수 있도록 피드백을 전달할 수 있다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도11은 3DoF+ end-to-end 시스템 아키텍쳐의 예시이다. 도 11의 아키텍처에 의하여 전술된 바와 같이 3DoF+ 360 컨텐츠가 제공될 수 있다.

360 비디오 전송 장치는 크게 360 비디오(이미지)/오디오 데이터 획득이 이루어지는 부분 (acquisition unit), 획득된 데이터를 처리하는 부분 (video/audio pre-processor), 추가 정보를 합성하기 위한 부분(composition generation unit), 텍스트, 오디오 및 프로젝션된 360도 비디오를 인코딩하는 부분(encoding unit) 및 인코딩된 데이터를 인캡슐레이션하는 부분(encapsulation unit)으로 구성될 수 있다. 전술한 바와 같이 인코딩된 데이터는 비트스트림(bitstream) 형태로 출력될 수 있으며, 인코딩된 데이터는 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션되거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인코딩된 데이터는 디지털 저장 매체를 통하여 360 비디오 수신 장치로 전달될 수 있으며, 또는 비록 명시적으로 도시되지는 않았으나, 전술한 바와 같이 전송 처리부를 통하여 전송을 위한 처리를 거치고, 이후 방송망 또는 브로드밴드 등을 통하여 전송될 수 있다.

데이터 획득 부분에서는 센서의 방향(sensor orientation, 영상의 경우 viewing orientation), 센서의 정보 획득 시점(sensor position, 영상의 경우 viewing position), 센서의 정보 획득 위치(영상의 경우 viewpoint)에 따라 서로 다른 정보를 동시에 혹은 연속적으로 획득할 수 있으며, 이 때 비디오, 이미지, 오디오, 위치 정보 등을 획득할 수 있다.

영상 데이터의 경우 텍스처 (texture) 및 깊이 정보(depth)를 각각 획득할 수 있으며, 각 컴포넌트의 특성에 따라 서로 다른 전처리 (video pre-processing)가 가능하다. 예를 들어 텍스처 정보의 경우 이미지 센서 위치 정보를 이용하여 동일 위치 (viewpoint)에서 획득한 동일 시점 (viewing position)의 서로 다른 방향 (viewing orientation)의 영상들을 이용하여 360 전방위 영상을 구성할 수 있으며, 이를 위해 영상 스티칭 (stitching) 과정을 수행할 수 있다. 또한 영상을 인코딩하기 위한 포맷으로 변경하기 위한 프로젝션(projection) 및/또는 리전별 팩킹을 수행할 수 있다. 깊이 영상의 경우 일반적으로 뎁스 카메라를 통해 영상을 획득할 수 있으며, 이 경우 텍스쳐와 같은 형태로 깊이 영상을 만들 수 있다. 혹은, 별도로 측정된 데이터를 바탕으로 깊이 데이터를 생성할 수도 있다. 컴포넌트 별 영상이 생성된 후 효율적인 압축을 위한 비디오 포맷으로의 추가 변환 (packing)을 하거나 실제 필요한 부분으로 나누어 재 구성하는 과정 (sub-picture generation)이 수행될 수 있다. Video pre-processing 단에서 사용된 영상 구성에 대한 정보는 video metadata로 전달된다.

획득된 데이터 (혹은 주요하게 서비스 하기 위한 데이터) 이외에 추가적으로 주어지는 영상/음성/텍스트 정보를 함께 서비스 하는 경우, 이들 정보를 최종 재생 시 합성하기 위한 정보를 제공할 필요가 있다. 컴포지션 생성부(Composition generation unit)에서는 제작자의 의도를 바탕으로 외부에서 생성된 미디어 데이터 (영상의 경우 비디오/이미지, 음성의 경우 오디오/효과 음향, 텍스트의 경우 자막 등)를 최종 재생 단에서 합성하기 위한 정보를 생성하며, 이 정보는 composition metadata로 전달된다.

각각의 처리를 거친 영상/음성/텍스트 정보는 각각의 인코더를 이용해 압축되고, 어플리케이션에 따라 파일 혹은 세그먼트 단위로 인캡슐레이션 된다. 이 때, 비디오, 파일 혹은 세그먼트 구성 방법에 따라 필요한 정보만을 추출(file extractor)이 가능하다.

또한 각 데이터를 수신기에서 재구성하기 위한 정보가 코덱 혹은 파일 포멧/시스템 레벨에서 전달되는데, 여기에서는 비디오/오디오 재구성을 위한 정보 (video/audio metadata), 오버레이를 위한 합성 정보 (composition metadata), 비디오/오디오 재생 가능 위치 (viewpoint) 및 각 위치에 따른 시점 (viewing position) 정보 (viewing position and viewpoint metadata) 등이 포함된다. 이와 같은 정보의 처리는 별도의 메타데이터 처리부를 통한 생성도 가능하다.

360 비디오 수신 장치는 크게 수신된 파일 혹은 세그먼트를 디캡슐레이션하는 부분 (file/segment decapsulation unit), 비트스트림으로부터 영상/음성/텍스트 정보를 생성하는 부분 (decoding unit), 영상/음성/텍스트를 재생하기 위한 형태로 재구성하는 부분 (post-processor), 사용자의 관심영역을 추적하는 부분 (tracking unit) 및 재생 장치인 디스플레이로 구성될 수 있다.

디캡슐레이션을 통해 생성된 비트스트림은 데이터의 종류에 따라 영상/음성/텍스트 등으로 나뉘어 재생 가능한 형태로 개별적으로 디코딩될 수 있다.

tracking 부분에서는 센서 및 사용자의 입력 정보 등을 바탕으로 사용자의 관심 영역 (Region of interest)의 위치 (viewpoint), 해당 위치에서의 시점 (viewing position), 해당 시점에서의 방향 (viewing orientation) 정보를 생성하게 되며, 이 정보는 360 비디오 수신 장치의 각 모듈에서 관심 영역 선택 혹은 추출 등에 사용되거나, 관심 영역의 정보를 강조하기 위한 후처리 과정 등에 사용될 수 있다. 또한 360 비디오 전송 장치 에 전달되는 경우 효율적인 대역폭 사용을 위한 파일 선택 (file extractor) 혹은 서브 픽처 선택, 관심영역에 기반한 다양한 영상 재구성 방법 (viewport/viewing position / viewpoint dependent processing) 등에 사용될 수 있다.

디코딩 된 영상 신호는 영상 구성 방법에 따라 다양한 처리 방법에 따라 처리될 수 있다. 360 비디오 전송 장치에서 영상 패킹이 이루어 진 경우 메타데이터를 통해 전달된 정보를 바탕으로 영상을 재구성 하는 과정이 필요하다. 이 경우 360 비디오 전송 장치에서 생성한 video metadata를 이용할 수 있다. 또한 디코딩 된 영상 내에 복수의 시청 위치 (viewpoint), 혹은 복수의 시점 (viewing position), 혹은 다양한 방향 (viewing orientation)의 영상이 포함된 경우 tracking 을 통해 생성된 사용자의 관심 영역의 위치, 시점, 방향 정보와 매칭되는 정보를 선택하여 처리할 수 있다. 이 때, 송신단에서 생성한 viewing position and viewpoint metadata가 사용될 수 있다. 또한 특정 위치, 시점, 방향에 대해 복수의 컴포넌트가 전달되거나, 오버레이를 위한 비디오 정보가 별도로 전달되는 경우 각각에 따른 렌더링 과정이 포함될 수 있다. 별도의 렌더링 과정을 거친 비디오 데이터(텍스처, 뎁스, 오버레이)는 합성 과정 (composition)을 거치게 되며, 이 때, 송신단에서 생성한 composition metadata가 사용될 수 있다. 최종적으로 사용자의 관심 영역에 따라 viewport에 재생하기 위한 정보를 생성할 수 있다.

디코딩 된 음성 신호는 오디오 렌더러 그리고/혹은 후처리 과정을 통해 재생 가능한 음성 신호를 생성하게 되며, 이 때 사용자의 관심 영역에 대한 정보 및 360 비디오 수신 장치에 전달된 메타데이터를 바탕으로 사용자의 요구에 맞는 정보를 생성할 수 있다.

디코딩 된 텍스트 신호는 오버레이 렌더러에 전달되어 서브타이틀 등의 텍스트 기반의 오버레이 정보로써 처리된다. 필요한 경우 별도의 텍스트 후처리 과정이 포함될 수 있다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

위에서 기술한 송신단 및 수신단의 세부 블록은 FLUS (Framework for Live Uplink Streaming)에서의 source 와 sink의 기능으로 각각 분류할 수 있으며, 이 경우 아래와 같이 정보 획득 장치에서 source의 기능을 구현하고, 네트워크 상에서 sink의 기능을 구현하거나, 혹은 네트워크 노드 내에서 source / sink를 각각 구현할 수 있다. 네트워크 노드는 UE(user equipment)를 포함할 수 있다. UE는 상술한 360 비디오 전송 장치 또는 360 비디오 수신 장치를 포함할 수 있다.

위에서 기술한 아키텍처를 기반으로 한 송수신 처리 과정을 아래와 같이 나타낼 수 있다. 아래의 송수신 처리 과정은 영상 신호 처리 과정을 기준으로 기술하며, 음성 혹은 텍스트와 같은 다른 신호를 처리하는 경우 기울임(italic)으로 표시된 부분은 생략하거나, 음성 혹은 텍스트 처리 과정에 맞도록 변경하여 처리할 수 있다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

송신단(360 비디오 전송 장치)에서는 입력된 데이터가 카메라 출력 영상인 경우 sphere 영상 구성을 위한 스티칭을 위치/시점/컴포넌트 별로 진행할 수 있다. 위치/시점/컴포넌트 별 sphere 영상이 구성되면 코딩을 위해 2D 영상으로 프로젝션을 수행할 수 있다. 어플리케이션에 따라 복수의 영상을 통합 영상으로 만들기 위한 패킹 혹은 세부 영역의 영상으로 나누는 서브 픽처로 생성할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정으로서 수행되지 않을 수 있으며, 이 경우 패킹 처리부는 생략될 수 있다. 입력된 데이터가 영상/음성/텍스트 추가 정보인 경우 추가 정보를 중심 영상에 추가하여 디스플레이 하는 방법을 알려줄 수 있으며, 추가 데이터도 함께 전송할 수 있다. 생성된 영상 및 추가된 데이터를 압축하여 비트 스트림으로 생성하는 인코딩 과정을 거쳐 전송 혹은 저장을 위한 파일 포맷으로 변환하는 인캡슐레이션 과정을 거칠 수 있다. 이 때 어플리케이션 혹은 시스템의 요구에 따라 수신부에서 필요로하는 파일을 추출하는 과정이 처리될 수 있다. 생성된 비트스트림은 전송처리부를 통해 전송 포맷으로 변환된 후 전송될 수 있다. 이 때, 송신측 피드백 처리부에서는 수신단에서 전달된 정보를 바탕으로 위치/시점/방향 정보와 필요한 메타데이터를 처리하여 관련된 송신부에서 처리하도록 전달할 수 있다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

수신단(360 비디오 수신 장치)에서는 송신단에서 전달한 비트스트림을 수신한 후 필요한 파일을 추출할 수 있다. 생성된 파일 포맷 내의 영상 스트림을 피드백 처리부에서 전달하는 위치/시점/방향 정보 및 비디오 메타데이터를 이용하여 선별하며, 선별된 비트스트림을 디코더를 통해 영상 정보로 재구성할 수 있다. 패킹된 영상의 경우 메타데이터를 통해 전달된 패킹 정보를 바탕으로 언패킹을 수행할 수 있다. 송신단에서 패킹 과정이 생략된 경우, 수신단의 언패킹 또한 생략될 수 있다. 또한 필요에 따라 피드백 처리부에서 전달된 위치/시점/방향에 적합한 영상 및 필요한 컴포넌트를 선택하는 과정을 수행할 수 있다. 영상의 텍스처, 뎁스, 오버레이 정보 등을 재생하기 적합한 포맷으로 재구성하는 렌더링 과정을 수행할 수 있다. 최종 영상을 생성하기에 앞서 서로 다른 레이어의 정보를 통합하는 컴포지션 과정을 거칠 수 있으며, 디스플레이 뷰포트(viewport)에 적합한 영상을 생성하여 재생할 수 있다.

도 15는 OMAF 구조를 나타낸다.

360 비디오 기반 VR 시스템은 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 서비스를 3DoF 기반 서비스라고 불릴 수 있다. 한편, 동일 시간대에서 임의의 위치 및 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 서비스는 6DoF (six degree of freedom) 기반 서비스라고 불릴 수 있다.

3DoF service를 위한 File format은 예를 들면 도15에 도시된 바와 같이 Head/eye tracking 모듈에 따라 rendering의 위치, 전송할 file의 정보, decoding 정보 등이 달라질 수 있는 구조를 가지고 있다. 그러나, 이러한 방식은 사용자의 위치 혹은 position에 따라 rendering의 정보/전송 내용, decoding의 정보가 달라지는 6DoF의 media file 전송에는 적합하지 않기에 수정이 필요하다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

본 발명은 사용자에게 몰입형 미디어/실감미디어(Immersive media)의 경험을 제공하기 위해, 6DoF contents를 제공하는 방안을 제안한다. 몰입형 미디어/실감미디어는 기존의 360 콘텐츠가 제공하는 가상의 환경에서 확대된 개념으로 기존의 360 콘텐츠가 (a)와 같은 형태로 사용자의 position 위치는 고정되어 있고, 회전에 대한 개념만 있었다면 몰입형 미디어/실감미디어는 (b) 혹은 (c) 와 같이 사용자에게 콘텐츠를 경험할 때 이동의 개념을 부여함으로써 가상의 공간에서 사용자의 이동/회전 등 더 다양한 감각적 경험을 제공할 수 있는 환경 혹은 콘텐츠를 의미할 수 있다.

(a)는 사용자의 포지션이 고정된 상태에서 사용자의 뷰가 회전하는 경우의 미디어 경험을 나타낸다.

(b) 는 사용자의 포지션이 고정된 상태에서 나아가 사용자의 머리가 추가적으로 움직일 수 있는 경우의 미디어 경험을 나타낸다.

(c) 는 사용자의 포지션이 움직일 수 있는 경우의 미디어 경험을 나타낸다.

실감 미디어 콘텐츠는 해당 콘텐츠를 제공하기 위한 6DoF비디오 및 6DoF오디오를 포함할 수 있으며, 6DoF 비디오는 실감미디어 콘텐츠 제공에 필요한 매 이동 때마다 새롭게 형성되는 3DoF 혹은 360비디오로 캡쳐되거나 재생되는 비디오 혹은 이미지를 의미 할 수 있다. 6DoF 콘텐츠는 3차원 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있다. 콘텐츠 내에서 이동이 고정된 상태라면 해당 콘텐츠는 기존의 360비디오와 같이 다양한 형태의 3차원 공간에서 나타내어질 수 있다. 예를 들어 구형 (Spherical)면 상에 나타내어질 수 있다. 콘텐츠 내에서 이동이 자유로운 상태라면 이동 경로 상에 사용자를 중심으로 3차원 공간이 매번 새롭게 형성되고 해당 위치의 콘텐츠를 사용자가 경험할 수 있다. 예를 들어 사용자가 처음 보는 위치에서의 구형(spherical)면 상에 나타내어진 영상을 경험하고, 3차원 공간에서 실제 사용자가 이동을 하였다면 이동한 위치를 중심으로 새로운 구형(spherical)면의 영상이 형성되고 해당 콘텐츠를 소비할 수 있다. 6DoF 오디오도 마찬가지로 실감형 미디어를 경험할 수 있도록 하는 콘텐츠를 제공하기 위한 오디오 콘텐츠로, 음향의 소비하는 위치가 이동함에 따른 공간적(spatial)오디오를 새롭게 형성하고 소비하기 위한 콘텐츠를 의미할 수 있다.

본 발명은 특히 6DoF 비디오를 효과적으로 제공하는 방안을 제안한다. 6DoF 비디오는 서로 다른 위치에서 두 개 이상의 카메라로 캡처 될 수 있다. 캡처된 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터 중 일부를 사용자의 초기 위치를 원점으로 하는 360비디오로 가공하여 렌더링 할 수 있으며 사용자의 위치가 이동하면 이동한 위치를 중심으로 새로운 360 비디오를 가공하여 렌더링 함으로써 6DoF비디오가 사용자에게 제공될 수 있다.

이하에서, 6DoF 비디오 서비스 제공을 위한 송신 방법 및 수신 방법을 설명한다.

도 17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

앞서 정리한 일련의 과정들을 도17을 바탕으로 구체적으로 설명하자면 먼저 획득(Acquisition)단계로 6DoF contents 를 캡처를 위해 HDCA(High Density Camera Array), Lenslet (microlens) camera 등이 사용될 수 있으며, 6DoF 비디오 캡처를 위해 디자인 된 새로운 디바이스로 획득 될 수 있다. 획득된 영상은 Fig.3a와 같이 캡처한 카메라의 위치에 따라 생성된 이미지/비디오 데이터 집합이 여러 개 생성될 수 있다. 이 때 캡처 과정에서 카메라의 내부/외부 설정 값 등의 메타메이타가 생성될 수 있다. 카메라가 아닌 컴퓨터로 생성된 영상의 경우 캡처 과정이 갈음될 수 있다. 획득된 영상의 전처리(pre-processing)과정은 캡처된 이미지/비디오 및 캡처 과정에서 전달된 메타데이타(metadata)를 처리하는 과정일 수 있다. 이 준비 과정에서는 스티칭(Stitching) 과정, 색보정(color correction)과정, 프로젝션 과정, 코딩 효율을 높이기 위해 주요 시점 (primary view)와 부차 시점(secondary view)로 분리 하는 시점 분리(view segmenation)과정 및 인코딩 과정 등 전송 전 콘텐츠를 처리하는 모든 형태의 전처리 단계가 해당될 수 있다.

스티칭 과정은 각 카메라의 위치에서 360 방향으로 캡처된 영상을 각각의 카메라 위치를 중심으로 하는 파노라마 혹은 구형의 형태로 영상을 잇는 이미지/비디오를 만드는 과정일 수 있다. 프로젝션은 각각의 스티칭 결과 영상을 Fig3b와 같이 2D 이미지로 투영 시키는 과정을 의미하며, 2D 이미지로 맵핑한다고 표현할 수 있다. 각 카메라 위치에서 맵핑한 영상은 주요시점과 부차 시점으로 분리 하여 비디오 코딩 효율을 높이기 위해 시점별 다른 해상도(resolution)를 적용할 수 있으며, 주요 시점 내에서도 맵핑 영상의 배치나 해상도(resolution)를 달리 함으로써 코딩 시 효율을 높일 수 있다. 부차 시점은 캡처 환경에 따라 없을 수도 있다. 부차 시점은 주요 시점에서 또 다른 주요 시점으로 사용자가 이동할 경우 이동 과정에서 재생되어야 하는 이미지/비디오를 의미하며 주요 시점에 비해 낮은 해상도를 가질 수도 있으나 필요에 따라 동일한 해상도를 가질 수도 있다. 때에 따라서는 부차 시점은 수신기에서 가상의 정보로 새롭게 생성 될 수 있다.

실시예에 따라 전처리 과정으로 에디팅(editing)과정 등을 더 포함할 수 있다. 이 과정에서 프로젝션 전 후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있으며, 전처리 과정에서도 메타메이타가 생성될 수 있다. 또한 이미지/비디오 제공시 가장 처음 재생해야 하는 초기 시점, 사용자의 초기 위치 및 ROI(Region of Interest)등에 관한 메타메이타가 생성될 수 있다.

미디어 전송 단계는 전처리 과정에서 얻어진 이미지/비디오 데이터 및 메타메이타들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있으며, 전처리 된 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있으며, 이 데이터들은 온디맨드(on demand) 방식으로 수신측으로 전달될 수 있다.

프로세싱 과정은 수신된 이미지/비디오 데이터 및 메타메이타를 디코딩, 3차원 모델로 맵핑 혹은 프로젝션이라고도 불릴 수 있는 리-프로젝션(re-projection) 하는 과정, 가상 시점의 생성 및 합성 과정 등 이미지/비디오를 재생하기 위한 이미지 생성 전 모든 단계가 프로세싱(processing) 단계에 포함될 수 있다. 맵핑 되는 3차원 모델 혹은 프로젝션 맵은 기존의 360비디오와 같이 구형(sphere), 큐브(cube), 실린더(cylinder), 또는 피라미드(pyramid)가 있을 수 있으며 기존의 360 비디오의 프로젝션 맵의 변형된 형태가 될 수 있으며, 경우에 따라 자유형 형태의 프로젝션 맵이 될 수 있다.

가상 시점의 생성 및 합성 과정은 주요 시점과 부차 시점 사이에 혹은 주요 시점과 주요 시점 사이에 사용자가 이동할 경우 재생되어야 하는 이미지/비디오 데이터를 생성하고 합성하는 과정을 의미할 수 있다. 가상 시점 생성을 위해 캡쳐 및 전처리 과정에서 전달된 메타메이타를 처리하는 과정이 필요할 수 있고, 경우에 따라서는 가상 시점에서 360 이미지/비디오 전체가 아닌 일부만 생성/합성할 수도 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing)과정, 업스케일링(up scaling), 다운 스케일링(down scaling) 과정 등이 더 포함될 수도 있다. 에디팅 과정에서 프로세싱 과정 후에 재생 전 필요한 추가 편집 과정이 적용될 수 있다. 필요에 따라서는 전송 받은 이미지/비디오를 업스케일링 혹은 다운 스케일링 하는 작업이 수행될 수도 있다.

렌더링 과정은 전송 혹은 생성되어 리프로젝션 된 이미지/비디오를 디스플레이 할 수 있도록 렌더링 하는 과정을 의미할 수 있다. 때에 따라서는 렌더링과 리프로젝션 과정을 렌더링이라고 통칭하기도 한다. 따라서 렌더링 과정 중에 리프로젝션 과정이 포함될 수 있다. 리프로젝션은 fig.3c와 같은 형태로 사용자 중심의 360 비디오/이미지와 사용자가 이동 방향에 따라 각 이동한 위치를 중심으로 형성되는 360 비디오/이미지가 형성되는 형태로 다수의 리프로젝션 결과물이 있을 수 있다. 사용자는 디스플레이 할 디바이스에 따라 360 비디오/이미지의 일부 영역을 볼 수 있으며, 이 때 사용자가 보게 되는 영역은 fig.3d와 같은 형태가 될 수 있으며, 사용자가 이동하는 경우 전체 360 비디오/이미지가 렌더링 되는 것이 아니라 사용자가 보고 있는 위치에 해당되는 영상만 렌더링 될 수 있다. 또한 사용자의 위치와 이동 방향에 관한 메타메이타를 전달 받아 미리 움직임을 예측하고 이동할 위치의 비디오/이미지를 추가로 렌더링할 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신 측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 6DoF콘텐츠와 사용자간의 인터렉티비티 (interactivity)가 일어날 수 있으며, 실시예에 따라 피드백 과정에서 사용자의 머리와 포지션 위치 정보 (head/position orientation) 및 사용자가 현재 보고 있는 영역(viewport)에 대한 정보 등이 전달 될 수도 있다. 해당 정보는 피드백 과정에서 송신측 혹은 서비스 제공자 측에 전달 될 수 있으며, 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

사용자의 위치 정보는 사용자의 머리 위치, 각도, 움직임 및 이동 거리 등에 대한 정보를 의미할 수 있으며, 해당 정보를 바탕으로 사용자가 보고 있는 위치(viewport) 정보가 계산 될 수 있다.

송신측에서의 본 발명은 6DoF 비디오 전송 장치와 관련 될 수 있다. 본 발명에 따른 6DoF 비디오 전송 장치는 전술한 준비 과정 및 동작들을 수행할 수 있다. 본 발명에 따른 6DoF 비디오/이미지 전송 장치는 데이터 입력부, 깊이 정보 처리부 (도시되지 않음), 스티처(Stitcher), 프로젝션 처리부, 시점 분리 처리부, 시점별 패킹 처리부, 메타메이타 처리부, 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 구성 요소로 포함할 수 있다.

데이터 입력부는 한 군데 이상의 위치에서 한 개 이상의 카메라로 캡쳐된 각 시점별 이미지/비디오/깊이정보/오디오 데이터를 입력 받을 수 있다. 데이터 입력부는 캡처 과정에서 발생된 메타메이타를 비디오/이미지/깊이정보/오디오 데이터와 함께 입력 받을 수 있다. 데이터 입력부는 입력된 각 시점별 비디오/이미지 데이터를 스티처로 전달하고, 캡쳐 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다.

스티처는 캡쳐된 시점별/위치별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타메이타 처리부로부터 전달받아 스티칭을 할 수 있다. 스티처는 스티칭 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 스티처는 깊이(depth)정보 처리부 (도식되지 않음) 에서 전달 받은 위치값을 활용하여 비디오/이미지 스티칭 위치를 다르게 할 수 있다. 스티처는 스티칭 과정에서 발생된 메타메이타를 처리부로 전달할 수 있다. 전달 되는 메타메이타는 스티칭 수행 여부, 스티칭 타입, 주요 시점(primary view)과 부차 시점(secondary view)의 ID 및 해당 시점의 위치 정보 등이 있을 수 있다.

프로젝션 처리부는 스티칭된 6DoF 비디오 데이터를 2D 이미지 프레임에 프로젝션할 수 있다. 프로젝션 처리부는 스킴(scheme)에 따라 다른 형태의 결과물을 얻을 수 있는데, 해당 스킴은 기존의 360비디오의 프로젝션 스킴과 유사할 수도 있고, 6DoF를 위해 새롭게 제안된 스킴이 적용 될수도 있다. 또한 각 시점별 서로 다른 스킴을 적용할 수 있다. 깊이 정보 처리부는 깊이 정보를 프로젝션 처리부로 전달하여 맵핑 결과 값을 다르게 할 수 있다. 프로젝션 처리부는 필요한 경우 메타메이타 처리부로부터 프로젝션에 필요한 메타메이타를 전달받아 프로젝션 작업에 이용할 수 있으며, 프로젝션 처리부는 프로젝션 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 해당 메타메이타는 스킴의 종류, 프로젝션 수행 여부, 주요시점과 부차 시점의 프로젝션 후의 2D 프레임의 ID 및 시점별 위치 정보 등이 있을 수 있다.

시점별 패킹 처리부는 전술한 바와 같이 주요 시점과 부차 시점으로 나누고, 각 시점 내 리전별 패킹 과정을 수행할 수 있다. 즉 시점별 패킹 처리부는 각 시점/위치별 프로젝션된 6DoF 비디오 데이터를 주요 시점과 부차 시점으로 분류하여 코딩 효율을 높이기 위해 주요 시점과 부차 시점을 다른 해상도를 가질 수 있도록 하거나 각 시점의 비디오 데이터를 회전, 재배열 달리하고 각 시점 안에서 나누어진 리전별 해상도를 다르게 할 수도 있다. 주요 시점과 부차 시점을 분류하는 과정은 생략될 수 있으며, 선택적인 과정일 수 있으며, 리전별 다른 해상도를 가지거나 배치를 다르게 하는 것도 선택적으로 수행될 수 있다. 시점별 패킹 처리부가 수행될 경우에 패킹은 메타메이타 처리부로부터 전달 받은 정보를 활용하여 수행 될 수 있으며, 패킹 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수도 있다. 시점별 패킹 처리 과정에서 정의되는 메타메이타는 주요 시점과 부차 시점을 분류하기 위한 각 시점의 ID와 시점 내 리전별 적용되는 사이즈, 회전 각 리전별 위치 값 등이 될 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 시점별 패킹 처리부는 실시예에 따라 하나 이상의 하드웨어 컴포넌트 혹은 스트리밍/다운로드 서비스 내의 인제스트 서버(Ingest server)에서 일어날 수도 있다.

메타메이타 처리부는 캡쳐 과정, 스티칭 과정, 프로젝션 과정, 시점별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타메이타들을 처리할 수 있다. 메타메이타 처리부는 각 프로세스에서 전달 받은 메타메이타를 활용하여 6DOF 비디오 서비스를 위한 새로운 메타메이타를 생성할 수 있다. 실시예에 따라 메타메이타 처리부는 새롭게 생성된 메타메이타를 시그널링 테이블의 형태로 생성할 수도 있다. 메타메이타 처리부는 전달받거나 메타메이타 처리부에서 새롭게 생성/가공된 메타메이타를 다른 요소들에 전달 할 수 있다. 메타메이타 처리부는 생성되거나 전달 받은 메타메이타를 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달 할 수 있다.

데이터 인코더는 2D 이미지 프레임 상에 프로젝션 된 6DoF 비디오 데이터 및/또는 시점별/리전별 패킹된 비디오 데이터를 인코딩 할 수 있다. 인코딩은 다양한 포맷으로 수행 될 수 있으며, 시점별 분류가 되었다면, 시점별 인코딩 결과 값을 분리하여 전달 할 수도 있다.

인캡슐레이션 처리부는 인코딩된 6DoF 비디오 데이터 및/또는 관련 메타메이타를 파일 등의 형태로 인캡슐레이션 할 수 있다. 관련 메타메이타는 전술한 메타메이타 처리부로부터 전달 받을 수 있다. 인캡슐레이션 처리부는 해당 데이터를 ISOBMFF, OMAF 등의 파일 포맷으로 인캡슐레이션 하거나 DASH 세그먼트 등의 형태로 처리할 수 있으며, 새로운 형태의 파일 포맷으로 처리될 수도 있다. 메타메이타는 파일 포맷 내 다양한 레벨에 존재하는 박스(box)에 포함되거나 별로의 트랙내의 데이터로 포함하거나 메타메이타만 파일로 인캡슐레이션 할 수 있다. 시점별 별도의 인캡슐레이션 처리가 가능할 수도 있고, 시점별 필요한 메타메이타와 해당 비디오 정보를 함께 인캡슐레이션 할 수도 있다.

전송 처리부는 포맷에 따라 인캡슐레이션된 비디오 데이터에 전송을 위한 추가 처리를 가할 수 있다. 해당 처리는 메타메이타 처리부에서 전달 받은 메타메이타를 활용하여 작동할 수 있다. 전송부는 전송 처리부로부터 전달 받은 데이터 및/또는 메타메이타를 방송망 및/또는 브로드밴드를 통해 전송될 수 있다. 전송부는 방송망및/또는 브로드밴드를 통한 전송 시 필요한 구성 요소가 포함될 수 있다.

피드백 처리부(송신측)는 및/또는 네트워크 인터페이스(도시되지 않음)를 추가로 더 포함할 수 있다. 네트워크 인터페이스는 본 발명에서 후술 되는 수신 장치로부터 피드백 정보를 전달 받고 피드백 처리부(송신측) 으로 전달 할 수 있다. 피드백 처리부는 수신측에서 전달받은 정보를 스티칭, 프로젝션, 시점별 패킹, 인코터, 인캡슐레이션 처리부 및/또는 전송 처리부로 전달 할 수 있으며, 메타메이타 처리부로 전달하여 메타메이타 처리부가 다른 요소들에 전달하거나 메타메이타 처리부에서 새로운 메타메이타를 생성/가공하여 전달 할 수 있다. 본 발명의 또 다른 실시예에 따르면 피드백 처리부가 네트워크 인터페이스로부터 전달 받은 위치/시점 정보를 메타메이타 처리부로 전달하며, 메타메이타 처리부는 프로젝션, 시점별 패킹 처리부, 인캡슐레이션 처리부 및/또는 데이터 인코더로 해당 위치/시점 정보를 전달하여 현재 사용자의 시점/위치에 맞는 정보와 주변 정보만을 전송하여 코딩 효율을 높일 수 있다.

전술한 6DoF비디오 전송 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

본 발명은 수신 장치와 관련될 수 있다. 본 발명에 따르면 6DoF 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 메타메이타 파서, 피드백 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상시점 생성/합성부 및/또는 렌더러를 구성요소로 가질 수 있다.

수신부는 전술한 6DoF송신 장치로부터 비디오 데이터를 수신할 수 있다. 비디오 데이터가 전송되는 채널에 따라 수신부는 방송망 또는 브로드밴드를 통해 수신할 수도 있다.

수신 처리부는 수신된 6DoF 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 전송 처리부에서 수행된 과정의 역순으로 수행하거나 프로토콜 처리 방법에 따른 과정을 거쳐 전송 처리부 이전 단계에서 얻은 데이터를 획득한다. 수신 처리부는 획득한 데이터를 디캡슐레이션 처리부로 전달하고, 수신부로 부터 받은 메타메이타 정보를 메타메이타 파서로 전달할 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 6DoF 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 해당 파일 포맷에 맞추어 파일들을 디캡슐레이션하여, 6DoF 비디오 및/또는 메타메이타를 획득할 수 있다. 획득된 6DoF 비디오 데이터는 데이터 디코더로 보낼 수 있고, 6DoF 메타메이타는 메타메이타 파서로 전달할 수 있다. 디캡슐레이션 처리부는 필요에 따라 메타메이타 파서로부터 디캡슐레이션에 필요한 메타메이타를 전달받을 수도 있다.

데이터 디코더는 6DoF 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타메이타 파서로부터 디코딩에 필요한 메타메이타를 전달 받을 수 있다. 데이터 디코딩 과정에서 획득 된 메타메이타는 메타메이타 파서로 전달되어 처리될 수 있다.

메타메이타 파서는 6DoF 비디오 관련 메타메이타에 대한 파싱/디코딩을 수행할 수 있다. 메타메이타 파서는 획득한 메타메이타를 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상 시점 생성/합성부 및/또는 렌더러로 전달 할 수도 있다.

리-프로젝션 처리부는 디코딩된 6DoF 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 각 시점/위치별 6DoF 데이터를 각각 3차원 공간으로 리-프로젝션할 수 있다. 3차원 공간은 사용되는 3차원 모델에 따라 다른 형태를 가질 수도 있고, 변환 과정을 거처 동일한 형태의 3차원 모델로 리-프로젝션 될 수도있다. 리-프로젝션 처리부는 메타메이타 파서로부터 필요한 메타메이타를 전달 받을 수 있다. 리-프로젝션 과정에서 정의된 메타메이타를 메타메이타 파서로 전달할 수도 있다. 예를 들어 각 시점/위치 별 6DoF 비디오 데이터의 3차원 모델을 메타메이타 파서로 전달 받을 수 있고, 각 시점/위치별 비디오 데이터의 3차원 모델이 다르고 모든 시점의 비디오 데이터를 동일한 3차원 모델로 리-프로젝션 되었을 경우 어떤 모델이 적용 되었는지 메타메이타 파서로 전달할 수 있다. 때에 따라서는 리-프로젝션에 필요한 메타메이타를 이용하여, 3차원 공간 내에 특정 영역만 리-프로젝션 할 수 있으며, 한 개 이상의 특정 영역을 리-프로젝션 할 수도 있다.

가상 시점 생성/합성부는 전송되어 리-프로젝션 된 3차원 공간상에서 수신된 6DoF 비디오 데이터에 포함되어 있지 않으나 재생이 필요한 가상의 시점 영역에서 비디오 데이터를 주어진 데이터를 활용하여 생성하고, 가상 시점을 중심으로 새로운 시점/위치에서의 비디오 데이터를 합성하는 과정을 수행할 수 있다. 새로운 시점의 비디오 데이터를 생성할 때 깊이(depth)정보 처리부 (도시하지 않음)의 데이터를 활용할 수 있다. 가상 시점 생성/합성부는 메타메이타 파서로부터 전달 받은 특정 영역과 수신 되지 않은 주변 가상 시점 영역의 일부만 생성/합성 할 수 있다. 가상 시점 생성/합성부는 선택적으로 수행될 수 있으며, 필요한 시점 및 위치에 해당하는 비디오 정보가 없을 때 수행된다.

렌더러는 리-프로젝션 혹은 가상 시점 생성/합성부에서 전달된 6DoF 비디오 데이터를 렌더링 할 수 있다. 전술 한 바와 같이 3차원 공간상에서 리-프로젝션 혹은 가상 시점 생성/합성부에서 일어나는 모든 과정은 렌더러와 통합되어 렌더러 내에서 이 과정들이 진행될 수 있다. 실시예에 따라 사용자의 시점/위치 정보에 따라 사용자가 보고 있는 부분 및 예상 경로 상의 일부만 렌더링 할 수도 있다.

본 발명에서 피드백 처리부(수신측) 및/또는 네트워크 인터페이스(도시되지 않음)을 추가적인 구성요소로 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 가상 시점 생성/합성부, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 사용자의 뷰포트 정보, 헤드 및 포지션 오리엔테이션 정보, 게이즈(gaze) 정보, 제스처(gesture) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 피드백 처리부로부터 전달 받고, 전송 장치로 전송할 수 있으며, 수신측의 각 구성요소에서 소비될 수도 있다. 예를 들면, 디캡슐레이션 처리부에서는 피드백 처리부로 부터 사용자의 위치/시점 정보를 전달 받아 수신된 6DoF 비디오 중에 해당 위치의 정보가 있을 경우 해당 위치 정보만 디캡슐레이션, 디코딩, 리-프로젝션, 렌더링을 할 수 있다. 만약 해당 위치의 정보가 없을 경우 해당 위치 주변에 위치한 6DoF 비디오를 모두 디캡슐레이션, 디코딩, 리-프로젝션, 가상 시점 생성/합성, 렌더링의 과정을 거칠 수 있도록 할 수 있다.

전술한 6DoF비디오 수신 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도20은 6 DoF 비디오 전송/수신 장치의 구성을 나타낸다.

6DoF 콘텐츠는 파일 형태로 제공되거나 DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있으며, 새로운 파일 포맷 혹은 스트리밍/다운로드 서비스 방법이 대신 쓰일 수도 있다. 여기서 6DoF 콘텐츠는 실감미디어(immersive media) 콘텐츠 혹은 라이트필드(light field) 콘텐츠, 혹은 포인트 클라우드(point cloud) 콘텐츠로 불릴 수 있다.

전술한 바와 같이 해당 파일 제공 및 스트리밍/다운로드 서비스를 위한 각 과정은 아래와 같이 상세하게 설명될 수 있다.

Acquisition : multi view/stereo/depth image를 획득하기 위한 camera 로 부터 capture 후 얻어지는 output 이며, 2개 이상의 video/image및 오디오 데이터가 얻어지게 되고, depth camera가 있는 경우 각 scene에서의 depth map도 획득(acquisition) 될 수 있다.

Audio Encoding : 6DoF 오디오 데이터는 오디오 전처리 과정, 인코딩 과정을 거칠 수 있다. 이 과정에서 메타메이타가 생성될 수 있으며, 관련 메타메이타는 전송을 위해 인캡슐레이션/인코딩 과정을 거칠 수 있다.

Stitching, Projection, mapping, and correction : 6DoF 비디오 데이터는 전술한 바와 같이 다양한 위치에서 획득된 영상의 에디팅, 스티칭, 프로젝션 과정을 거칠 수 있다. 이 과정은 실시예에 따라 일부만 수행되기도 하고, 전체가 생략되어 수신기측에서 수행 될 수도 있다.

View segmentation/packing : 전술한 바와 같이 시점 분리/패킹 처리부는 스티칭 된 영상을 바탕으로 수신기 측에서 요구 되는 주요 시점,Primary View(PV) 위치의 영상을 분리해 내어 패킹 하고, 주요 시점으로 분리되어 패킹 된 후 나머지 영상을 부차 시점, Secondary View(SV)로 패킹하는 전처리 과정을 거칠 수 있다. 패킹하는 과정에서 코딩 효율을 높이기 위해 주요 시점과 부차 시점의 사이즈, 해상도 등이 조정될 수 있다. 동일한 성격의 시점 내에서도 리전별 다른 조건으로 해상도를 가지거나 리전에 따라 회전, 재배치 될 수 있다.

Depth sensing and/or estimation: 깊이 캡처 카메라 (depth camera)가 존재하지 않는 경우 획득된 2개 이상의 영상에서 깊이 맵을 추출해 내는 과정을 수행하기 위함이며 깊이 캡처 카메라 (depth camera)가 있는 경우 영상 획득 위치에서 영상 내 포함된 각 오브젝트(object)의 깊이가 얼만큼 되는지 위치 정보를 저장하기 위한 과정을 수행할 수 있다.

Point Cloud Fusion/extraction 미리 획득 된 깊이 맵을 인코딩 가능한 형태의 데이터로 변형하는 과정을 수행할 수 있다. 예를 들어 포인트 클라우드 데이터 타입으로 변형하여 3차원에서 영상의 각 오브젝트의 위치 값을 할당하는 전처리 과정을 수행할 수 있으며, 포인터 클라우드 데이터 타입이 아닌 3차원 공간 정보를 표현할 수 있는 데이터 타입이 대신 적용될 수 있다.

PV encoding/SV encoding/light field/point cloud encoding : 시점별로 미리 패킹되거나 깊이 정보 및/또는 위치 정보는 각각 이미지 인코딩 내지 비디오 인코딩 될 수 있다. 동일한 시점의 같은 콘텐츠라도 리전별로 다른 비트 스트림으로 인코딩될 수도 있다. MPEG-I에서 정의될 새로운 codec 및 HEVC-3D, OMAF++ 등 media format이 될 수 있다.

File encapsulation : 전술한 대로 인코딩된 6DoF 비디오 데이터는 인캡슐레이션 처리부인 File-encapsulation에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인코딩 된 6DoF 비디오 데이터는 세그먼트들로 처리할 수 있다.

Metadata(including depth information) : 6DoF 비디오 데이터 처리와 같이 획득, 스티칭, 프로젝션, 시점별 분리/패킹, 인코딩, 인캡슐레이션 과정중에 발생한 메타메이타를 메타메이타 처리부로 전달하거나 메타메이타 처리부에서 생성된 메타메이타를 각 과정으로 전달 할 수 있다. 또한 송신측에서 생성된 메타메이타는 인캡슐레이션 과정에서 하나의 트랙 혹은 파일로 생성하여 수신측으로 전달 할 수 있다. 수신측에서는 방송망이나 브로드밴드를 통해 별도의 파일 혹은 파일 내 트랙으로 저장되어 있는 메타메이타를 수신할 수 있다.

Delivery : 파일 및/또는 세그먼트들은 DASH 혹은 유사한 기능을 가진 새로운 모델을 기반으로 전송을 위한 개별 트랙에 포함될 수 있다. 이때 전송을 위해 MPEG DASH, MMT및/또는 새로운 표준이 적용될 수 있다.

File decapsulation : 수신 장치는 6DoF 비디오/오디오 데이터 수신을 위한 처리를 수행할 수 있다.

Audio deconding/Audio rendering/Loudspeakers/headphones : 6DoF 오디오 데이터는 오디오 디코딩, 렌더링 과정을 거쳐 스피커, 헤드폰을 통해 사용자에게 제공될 수 있다.

PV/SV/light field/point cloud decoding : 6DoF 비디오 데이터는 이미지 내지 비디오 디코딩 할 수 있다. 디코딩에 적용되는 코덱은 HEVC-3D, OMAF++ 및 MPEG에서 6DoF를 위해 새롭게 제안되는 코덱이 적용될 수 있다. 이 때 주요 시점(PV)와 부차 시점(SV)이 분리되어 각 시점 패킹 내에서 비디오 내지 이미지가 각각 디코딩 될 수 있고, 시점 분류와 상관없이 비디오 내지 이미지 디코딩이 될 수 있다. 또한 위치, 깊이 정보를 가지고 있는 라이트필드와 포인트 클라우드 디코딩이 먼저 이루어지고나서 헤드, 포지션, 시선 트래킹의 피드백을 먼저 전달하고 사용자가 위치한 주변부 시점의 이미지 내지 비디오만 분리해 내어 디코딩 될 수도 있다.

Head/eye/position tracking : 전술한 바와 같이 사용자의 헤드, 포지션, 게이즈, 뷰포트 정보 등을 획득, 처리할 수 있다.

Point Cloud rendering : 캡쳐한 비디오/이미지 데이터를 3차원 공간상에 리-프로젝션 할 때 3차원의 공간 위치를 설정하고, 수신한 비디오/이미지 데이터에서 확보하지 못하였으나 사용자가 이동 가능한 위치인 가상 시점의 3차원 공간을 생성하는 과정을 수행한다.

Virtual view synthesis : 전술한 바와 같이 사용자가 위치한 공간에 6DoF 비디오 데이터가 없을 경우 사용자 위치/시점 주변에 이미 확보된 6DoF 비디오 데이터를 활용하여 새로운 시점의 비디오 데이터를 생성하고 합성하는 과정을 수행한다. 실시예에 따라 가상 시점 생성 및/또는 합성 과정은 생략될 수 있다.

Image composition, and rendering : 전술한 바와 같이 사용자의 위치를 중심으로 한 영상을 렌더링 하기 위한 과정으로 사용자의 위치 및 시선에 따라 디코딩 된 비디오 데이터를 이용하거나 가상 시점 생성/합성으로 만들어진 사용자 주변의 비디오 및 이미지를 렌더링 할 수 있다.

도21은 6DoF 공간을 나타낸다.

본 발명에서 프로젝션 전 또는 리-프로젝션 후의 6DoF 공간에 대해 기술하고 그에 대한 시그널링을 수행하기 위하여 도 21과 같은 개념을 사용할 수 있다.

6DoF 공간은 360비디오 혹은 3DoF 공간이 야(Yaw), 피치(Pitch), 롤(Roll)로 설명할 수 있는 것과 달리 이동의 방향을 레이셔널(rational)과 트렌스레이션(translation) 두 종류로 나뉠 수 있다. 레이셔널 이동은 a와 같이 기존의 3DoF 의 방향을 설명한 것과 마찬가지로 야, 피치, 롤 로 설명할 수 있으며 방향의 이동(orientation movement)으로 불릴 수도 있다. 반면 트렌스레이션 이동의 경우는 b와 같이 포지션의 이동으로 불릴 수 있다. 왼쪽/오른쪽(Left/Right), 앞/뒤(Forward/Backward), 위/아래(Up/down) 방향 중 축이 어디로 이동했는지 알려 줄 수 있는 것으로 한 축 이상의 값을 정의하여 중심축의 이동을 설명할 수 있다.

본 발명의 특징은 6DoF 비디오 서비스 및 스트리밍을 위한 아키텍쳐를 제안하고 시그널링 및 파일 저장 방법의 기본 메타데이터를 제안하여 향후 6DoF 관련 메타데이터 및 시그널링 확장을 위한 발명에 활용될 수 있다.

- 제안한 6DoF 송,수신기 아키텍처를 바탕으로 각 과정마다 발생하는 메타데이터를 확장할 수 있다.

- 제안한 아키텍처의 과정간에 발생하는 메타데이터를 제안할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 서비스를 제공하는 콘텐츠의 6DoF 비디오 관련 파라미터를 ISOBMFF 등 파일에 저장 및 시그널링 할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 스트림의 SEI 혹은 VUI를 통해 6DoF 비디오 메타데이터 저장 및 시그널링을 할 수 있다.

리전(리전별 패킹에서의 의미, Region) : 리전(Region) 은 2D 이미지에 프로젝션된 360 비디오 데이터가 리전별 패킹(region-wise packing) 을 통해 팩드 프레임 내에서 위치하게 되는 영역을 의미할 수 있다. 여기서의 리전은 문맥에 따라 리전별 패킹에서 사용되는 리전을 의미할 수 있다. 전술한 바와 같이 리전들을 2D 이미지를 균등하게 나누어 구분되거나, 프로젝션 스킴 등에 따라 임의로 나누어져 구분될 수도 있다.

리전(일반적 의미, region) : 전술한 리전별 패킹에서의 리전과 달리, 사전적 의미로서 리전(region) 이라는 용어가 사용될 수도 있다. 이 경우 리전이란 사전적 의미인 ‘영역’, ‘구역’, ‘일부분’ 등의 의미를 가질 수 있다. 예를 들어 후술할 페이스(face) 의 일 영역을 의미할 때, ‘해당 페이스의 한 리전’ 등과 같은 표현이 사용될 수 있다. 이 경우 리전은 전술한 리전별 패킹에서의 리전과는 구분되는 의미로서, 양자는 서로 무관한, 다른 영역을 지시할 수 있다.

픽쳐 : 픽쳐는 360 비디오 데이터가 프로젝션된 2D 이미지 전체를 의미할 수 있다. 실시예에 따라 프로젝티드 프레임 내지는 팩드 프레임이 픽쳐가 될 수 있다.

서브-픽쳐 : 서브 픽쳐는 전술한 픽쳐의 일부분을 의미할 수 있다. 예를 들어 타일링 등을 수행하기 위해 픽쳐가 여러 서브-픽쳐로 나누어질 수 있다. 이 때 각 서브 픽쳐가 타일이 될 수 있다. 구체적으로, 타일 내지 MCTS 를 기존의 HEVC 와 호환되는 픽쳐 형태로 재구성하는 동작을 MCTS 추출(extraction) 이라고 할 수 있다. 이 MCTS 추출의 결과물은 원래의 타일 내지 MCTS 가 속하는 픽쳐의 서브-픽쳐일 수 있다.

타일 : 서브 픽처의 하위 개념으로서, 서브 픽처가 타일링을 위한 타일로 쓰일 수 있다. 즉, 타일링에 있어서는 서브 픽처와 타일은 동일한 개념일 수 있다. 구체적으로, 본디 타일은 병렬 디코딩을 가능케 하기 위한 툴이나, VR 에 있어서는 독립 디코딩을 위한 툴일 수 있다. VR 에 있어서 타일은, 템포럴 인터 프리딕션(temporal inter prediction) 의 범위를 현재의 타일 내부 범위로 제한한 MCTS (Motion Constrained Tile Set) 을 의미할 수 있다. 이에 이 문서에서 타일은 MCTS 로도 불릴 수 있다.

슈페리컬 리전(Spherical region) : 슈페리컬 리전 내지 슈피어 리전(Sphere region) 은, 360 비디오 데이터가 수신측에서 3D 공간(예를 들어 구면) 상에 렌더링될 때, 그 구면 상의 일 영역을 의미할 수 있다. 여기서 슈페리컬 리전은, 리전별 패킹에서의 리전과는 무관하다. 즉, 슈페리컬 리전이 리전별 패킹에서 정의되었던 리전과 같은 영역을 의미할 필요는 없다. 슈페리컬 리전은 렌더링되는 구면 상의 일 부분을 의미하는 데 사용되는 용어로서, 여기서의 ‘리전’ 은 사전적 의미로서의 ‘영역’을 뜻할 수 있다. 문맥에 따라 슈페리컬 리전이 단순히 리전이라고 불릴 수도 있다.

페이스(face) : 페이스는 프로젝션 스킴에 따라 각 면을 부르는 용어일 수 있다. 예를 들어 큐브맵 프로젝션이 사용되는 경우, 앞면, 뒷면, 양 옆면, 윗면, 아랫면 등은 페이스라고 불릴 수 있다.

본 발명의 실시예들에 따른 프리-인코더는 프루닝(Pruning, 22001), 패치 패킹 프로세서(Patch packing processor, 22004), 및/또는 인코더(Encoder, 22005)를 포함한다. 또한, 프루닝(Pruning, 22001)은 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002) 및/또는 프레딕션 에러 프로세서(Prediction error processor, 22003)을 포함한다. 본 명세서에서 프리-인코더는 비디오 송신 장치로 호칭될 수 있다.

프루닝(Pruning, 22001)는 앵커 뷰잉 포지션(Anchor viewing position)의 텍스쳐 픽쳐(Texture picture) 또는 뎁스 픽쳐(Depth picture), 타겟 뷰잉 포지션 인포메이션(Target viewing position information) 및/또는 뷰잉 포지션들의 소스 픽쳐들(Source pictures of viewing positions)을 수신한다. 타겟 뷰잉 포지션 인포메이션 및 뷰잉 포지션들의 소스 픽쳐들은 메타데이터 또는 시그널링 인포메이션을 통해 수신될 수 있다.

프루닝(22001)은 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002) 및 프레딕션 에러 프로세서(Prediction error processor, 22003)을 포함한다.

프루닝(22001)은3DOF+ 영상의 전송 시 영상 간 중첩되는 정보를 제외하고 유효 정보 영역만을 패킹해서 전달할 수 있다.

따라서, 프루닝(22001)은 영상의 수를 줄임으로써 효율적인 전송을 가능하게 하는 효과를 제공한다.

타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002)는 인코딩의 기반이 되는 영상으로부터 목표가 되는 타겟 뷰잉 포지션에 관련된 정보를 사용하여 타겟 뷰잉 포지션의 영상을 추정한다. 본 명세서에서 영상은 데이터 또는 픽쳐 등으로 호칭될 수 있다. 본 명세서에서 기반 영상은 앵커 뷰(anchor view 혹은 center view)가 될 수 있다.

구체적으로, 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002)는 앵커 뷰잉 포지션의 영상(텍스쳐 픽쳐 또는 뎁스 픽쳐)를 수신하고, 목표가 되는 타겟 뷰잉 포지션 및/또는 뎁스 정보에 기초하여 영상을 추정한다. 또한, 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002)는 뎁스 정보에 따라서 영상 추정을 한다.

예들 들어, 타겟 뷰잉 포지션은 카메리 위치 정보에 관련된 포지션일 수 있다. 타겟 뷰 프레딕션 프로세서(22002)는 타겟 뷰잉 포지션을 통해 전반적인 디스패리티(disparity)를 알 수 있다. 또한, 뎁스(깊이) 정보를 통해 물체에 따라 서로 다른 디스패리티를 계산할 수 있다. 또한, 타겟 뷰 프레딕션 프로세서(22002)는 영상 추정의 정확도를 높이기 위해 추가 정보를 사용/생성 할 수 있다.

프레딕션 에러 프로세서(Prediction error processor, 22003)는 프레딕션된 픽쳐(들) 및 뷰잉 포지션들의 소스 픽쳐들(또는 원본 영상) 간 차이를 계산한다. 프레딕션 에러 프로세서(22003)은 추정 영상 및 원본 영상 간의 차이를 통해, 오류가 발생할 수 있는 위치를 찾고, 오류가 발생할 수 있는 위치(Error-prone region)에 관한 정보(Error-prone region map)를 수신기에 전달한다. 프레딕션 에러 프로세서(22003)의 목적은 기반 영상을 통해 추정할 수 있는 정보는 중복된 정보로 여기고, 그 이외의 정보를 송신하는데 있다. 이로 인하여, 수신기는 필요한 정보만 수신하여 각 시점의 영상을 효율적으로 재현할 수 있는 효과가 있다. 프레딕션 에러 프로세서(22003)는 수신기에서 에러가 발생할 수 있는 위치의 정보를 대체할 수 있는 정보를 생성할 수 있다. 또한, 수신기에서 추정할 수 없는 정보 또는 에러가 크게 발생하는 정보만을 수신기에 전달할 수 있다. 프레딕션 에러 프로세서(22003)는 픽쳐의 홀(hole) 또는 픽쳐의 프레딕션 에러(prediction error)를 감지하여 송신단의 데이터 전송 효율성을 증가시킨다.

패치 패킹 프로세서(Patch packing processor, 22004)는 프레딕션 에러 프로세싱된 픽쳐(Error-prone region picture)를 에러-프론 리젼 맵(error-prone region map)에 기초하여 패치 패킹한다. 패치 패킹 프로세서(22004)는 수신기에서 추정할 수 없는 정보 또는 에러가 크게 발생하는 정보를 이용하여 컴팩트한 영상으로 재구성한다. 패치의 경우 각각의 뷰잉 포지션(viewing position)에 대한 패치를 모아서 각각의 영상으로 만들수도 있고, 여러 개의 뷰잉 포지션(viewing position)에 해당하는 패치를 하나로 모을 수 있다.

인코더(Encoder, 22005)는 패킹된 패치들(packed patches)을 인코딩하여 비트스트림으로 출력한다. 인코더(22005)는 앵커 뷰잉 포지션의 텍스쳐 또는 뎁스에 기초하여 패킹된 패치들을 인코딩할 수 있다.

앵커 뷰(Anchor view, 22006)는 프리 인코딩을 위한 기반이 되는 영상을 의미한다. 예를 들어, 본 발명의 실시예들에 따라서 앵커 뷰(22006)는 센터 뷰(center view)가 될 수 있다. 본 발명의 실시예들에 따른 비디오 송신 장치는 앵커 뷰(22006)를 기반으로 타겟 뷰잉 포지션에 기반하여 추정 영상을 생성하고, 뷰잉 포지션들에 대한 원본 영상을 기반으로 에러 추정을 하고, 수신기에서 필요로 하는 정보만을 전달하기 위해 패치들을 패킹하여 인코딩하고 전송한다.

프레딕션된 픽쳐들(predicted picutres, 22007)은 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002)에서 생성된 영상을 나타낸다. 프레딕션된 픽쳐들(22007)은 홀(hole)을 포함할 수 있다.

예를 들어, 프레딕션된 픽쳐들(22007)은 24개의 뷰들로 구성될 수 있다. 뷰의 개수는 본 발명의 실시예들에 따라 조절될 수 있다. 24개의 뷰들로 프레딕션을 수행하는 예를 설명한다. 타겟 뷰 프레딕션 프로세서(22002)는 앵커 뷰에 대한 영상 또는 픽쳐(들)로부터 타겟 뷰잉 포지션에 대한 24개의 뷰(v0 내지 v23)를 추정할 수 있다. 또한, 영상 추정에 따른 홀이 생성될 수 있다.

프레딕션 에러 프로세싱된 픽쳐들(또는 Subtracted pictures, 22008)은 원본 영상 및 추정 영상 간의 차이를 나타낸다. 프레딕션 에러 프로세서(22003)은 상술한 바와 같이 뷰잉 포지션들의 소스 픽쳐들, 예를 들어 24개의 원본 뷰들 및 프리딕션된 픽쳐들(24개의 추정 뷰들) 간의 차이(에러)를 계산하여 서브트랙된 픽쳐들(22008)을 생성한다.

패치된 픽쳐(patched picture, 22009)는 서브트랙티드 픽쳐들(22008)을 패치 단위로 나타낸 픽쳐이다. 24개의 뷰들에 대하여 서브트랙티드 픽쳐들(22008)에 포함된 의미 있는 영역이 패치 단위로 구별될 수 있다.

패킹된 패치들(packed patches, 22010)은 패치 패킹 프로세서(22004)가 패치된 픽쳐를 패킹한 패치들이다. 24개의 뷰들에 대하여 패킹된 패치들이 생성될 수 있다.

패킹된 패치(packed patch, all in one, 22011)은 패치 패킹 프로세서(22004)가 패치된 픽쳐를 패킹한 패치들로서, 24개의 뷰 각각에 대한 패치들이 아닌 올인원(all in one)으로 패킹될 수 있다.

본 발명의 실시예들에 따른 타겟 뷰 프레딕션 프로세서(Target view prediction processor, 22002), 프레딕션 에러 프로세서(Prediction error processor, 22003) 및 패치 패킹 프로세서(Patch packing processor, 22004)는 각각 타겟 뷰 프레딕션 컨트롤러, 프레딕션 에러 컨트롤러, 패치 패킹 컨트롤러 등으로 호칭될 수 있다.

본 발명의 실시예들에 따른 프리-인코더의 각 동작은 이하에서 각 도면에 기초하여 구체적으로 설명한다.

본 발명의 실시예들에 따른 비디오 송신 장치는, 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 타겟 뷰 프레딕션 컨트롤러(Target view prediction controller); 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 프레딕션 에러 컨트롤러(Prediction error controller), 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨; 프레딕션 에러 프로세싱된 픽쳐를 에러-프론 리젼 맵에 기초하여 패치 패킹하는 패치 패킹 컨트롤러(Patch packing controller); 및 패킹된 패치를 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 인코더(Encoder); 를 포함한다.

타겟 뷰 프레딕션 프로세싱은 타겟 뷰 뎁스 레이어링(Target view depth layering, 23000), 백그라운드 디스패리티 프레딕션(Background disparity prediction, 23001), 뎁스 레이어 오브젝트 디스패리티 프레딕션(depth layer object disparity prediction, 23002), 및/또는 프레딕션된 픽쳐 제너레이션(predicted picture generation, 23003)을 포함한다.

타겟 뷰 프레딕션 프로세싱은 타겟 뷰잉 포지션 인포메이션, 앵커 뷰잉 포지션의 뎁스 또는 타겟 뷰잉 포지션의 뎁스 중 적어도 하나에 기초하여 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐의 뎁스 레이어를 구분하고(Target view depth layering), 앵커 뷰잉 포지션의 뎁스 및 타겟 뷰잉 포지션의 뎁스에 기초하여 구분된 뎁스 레이어를 프레딕션(Prediction)하고, 프레딕션된 뎁스 레이어를 통합하여 타겟 뷰잉 포지션에 대한 프레딕션 픽쳐를 생성(Picture generation)한다.

타겟 뷰 프레딕션 프로세싱은 텍스쳐 및/또는 뎁스를 포함하는 앵커 뷰 픽쳐(anchor view picture), 텍스쳐 및/또는 뎁스를 포함하는 소스 뷰 픽쳐(source view picture), 및/또는 타겟 뷰잉 포지션 인포메이션(target viewing position information)를 수신한다. 타겟 뷰 프레딕션 프로세싱은 수신한 데이터에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하여 프레딕션 픽쳐를 생성하고, 디스페리티를 조정하여 디스패리티 조정 메타데이터(disparity adjustment metadata)를 생성할 수 있다. 구체적인 과정은 다음과 같다.

타겟 뷰 뎁스 레이어링(Target view depth layering, 23000) 앵커 뷰잉 포지션(anchor viewing position)에 대한 픽쳐(23004)를 수신한다. 앵커 뷰잉 포지션(anchor viewing position)에 대한 픽쳐는 텍스쳐 및/또는 뎁스를 포함한다. 앵커 뷰잉 포지션(anchor viewing position)에 대한 픽쳐(23004)는 도10과 같이 스티칭(Stitching)된 픽쳐를 의미할 수 있다. 타겟 뷰 뎁스 레이어링(23000)은 타겟 뷰잉 포지션 인포메이션, 앵커 뷰잉 포지션의 뎁스, 타겟 뷰잉 포지션의 뎁스를 수신한다. 타겟 뷰 뎁스 레이어링(23000)은 앵커 뷰 뎁스 및 타겟 뷰 뎁스를 이용하여 픽쳐를 뎁스에 따라 분리한다. 뎁스에 따라서 픽쳐에 대한 오브젝트(object)가 분리될 수 있다. 뎁스에 따라서 픽쳐의 백그라운드(background) 및 서로 다른 뎁스 레이어의 오브젝트가 분류될 수 있다. 나아가, 정확한 레이어를 구분하기 위해서 뎁스 레이어가 더 세분화될 수 있다.

예를 들어, 타겟 뷰 뎁스 레이어링(23000)은 백그라운드를 포함한 n개의 뎁스 레이어 오브젝트를 분류(또는 생성)할 수 있다. 또한, 뎁스 레이어가 상세하게 구분된 경우, 뎁스 레이어에 대한 정보를 메타데이터 형태로 생성할 수 있다.

프레딕션(23001, 23002)은 백그라운드 디스패리티 프레딕션(Background disparity prediction, 23001) 및/또는 n-th뎁스 레이어 오브젝트 디스패리티 프레딕션(n-th depth layer object disparity prediction, 23002)을 포함한다. 프레딕션(23001, 23002)은 구분된 뎁스 레이어를 이용하여 픽쳐에 대한 프레딕션을 수행한다. 프레딕션(23001, 23002)은 생성된 뎁스 레이어를 타겟 뷰잉 포지션 인포메이션, 타겟 뷰잉 포지션의 오리지널 픽쳐, 앵커 뷰잉 포지션의 뎁스, 타겟 뷰잉 포지션의 뎁스를 이용하여 각 뎁스 레이어의 오브젝트 디스패리티를 추정(프레딕션)한다. 프레딕션(23001, 23002)은 앵커 뷰의 뎁스 정보 및/또는 타겟 뷰의 포지션 정보에 기초하여 수행된다. 타겟 뷰의 오리지널 텍스쳐 및 뎁스와 앵커 뷰의 텍스쳐 및 뎁스를 비교하여, 앵커 뷰의 텍스쳐 및 뎁스의 보정이 필요한 경우 디스패리티 조정 메타데이터(disparity adjustment metadata) 또는 뎁스 레이어 메타데이터(depth layer metadata)를 생성할 수 있다.

백그라운드 디스패리티 프레딕션(23001)은 뷰잉 오리엔테이션(viewing orientation) 및/또는 로케이션(location) 정보를 기반으로 백그라운드를 추정(프레딕션)한다.

n-th 뎁스 레이어 오브젝트 디스패리티 프레딕션(23002)은 생성된 n번째 뎁스 레이어에 대한 오브젝트의 디스패리티를 추정(프레딕션)한다. -th 뎁스 레이어 오브젝트 디스패리티 프레딕션(23002)은 뎁스 맵(depth map) 및/또는 로컬 MV(local MV) 정보를 이용하여 디스패리티를 프레딕션할 수 있다.

프레딕션된 픽쳐 제너레이션(23003)은 서로 다른 뎁스 레이어에 따른 프레딕션된 데이터를 통합하여 최종 프레딕션 픽쳐(또는 영상)을 생성한다. 앵커 뷰 상 가려졌던 영역이 타겟 뷰에서 보이는 영역이면, 홀(hole)이 생성된다.

앵커 뷰(23004)는 앵커 뷰에 대한 픽쳐(또는 영상)을 나타낸다. 앵커 뷰(23004)는 텍스쳐 및/또는 뎁스를 포함할 수 있다. 앵커 뷰(23004)는 타겟 뷰 뎁스 레이어링(23000)에 입력된다.

프레딕션 픽쳐(23005)는 프레딕션된 픽쳐 제너레이션(23003)에 의해 생성된 데이터를 나타낸다. 프레딕션 픽쳐(23005)는 복수 개의 픽쳐를 포함할 수 있다. 예를 들어, 프레딕션 픽쳐(23005)는 24개의 뷰로 구성될 수 있다. 프레딕션 픽쳐(23005)는 앵커 뷰 및 타겟 뷰 간 영역의 차이로 인하여 홀(hole)을 포함할 수 있다.

타겟 뷰 프레딕션 프로세싱은 타겟 뷰잉 포지션에 대한 프레딕션 픽쳐(23005)를 생성한다. 또한, 디스패리티 조정 메타데이터 및 뎁스 레이어 메타데이터를 생성할 수 있다. 이러한 메타데이터는 디스패리티 프레딕션 과정에서 타겟 뷰잉 포지션 및 앵커 뷰잉 포지션 간 보정이 필요한 경우 보정이 필요한 위치, 뎁스, XY 보정 값, 뎁스 레이어가 복수 개인 경우 각 뎁스 레이어에 해당하는 뎁스 갑사, 전체 뎁스 레이어의 개수 등을 포함할 수 있다. 본 발명의 실시예들에 따른 수신기는 디코더 포스트-프로세싱(decoder post-processing) 과정에서 이러한 메타데이터를 이용하여 타겟 뷰 프레딕션 프로세스를 수행할 수 있다. 본 발명의 실시예들에 따른 수신기의 동작은 본 발명의 실시예들에 따른 송신기의 역과정을 따르므로, 송신기의 인코더 프리-프로세싱(encoder pre-processing)이 수행하는 타겟 뷰 프레딕션 프로세스를 수신기가 구현할 수 있도록 시그널링 정보를 송신기가 수신기로 전송한다.

본 발명의 실시예들에 따른 비디오 송신 장치의 타겟 뷰 프레딕션 컨트롤러는, 타겟 뷰잉 포지션 인포메이션, 앵커 뷰잉 포지션의 뎁스 또는 타겟 뷰잉 포지션의 뎁스 중 적어도 하나에 기초하여 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐의 뎁스 레이어를 구분하고(Target view depth layering), 앵커 뷰잉 포지션의 뎁스 및 타겟 뷰잉 포지션의 뎁스에 기초하여 구분된 뎁스 레이어를 프레딕션(Prediction)하고, 프레딕션된 뎁스 레이어를 통합하여 타겟 뷰잉 포지션에 대한 프레딕션 픽쳐를 생성(Picture generation)한다.

프레딕션 에러 프로세싱은 프레딕션 에러 디텍션(prediction error detection, 24000), 에스티메이션 에러 디텍션(estimation error detection, 24001), 오클루션 에러 디텍션(occlusion error detection, 24002), 에러-프론 리젼 디텍션(error-prone region detection, 24003), 에러-프론 리젼 맵 포스트-프로세싱(error-prone region map post-processing, 24004), 및/또는 에러-프론 리젼 픽쳐 제너레이션(error-prone region picture generation, 24005)을 포함한다.

프레딕션 에러 디텍션(prediction error detection, 24000)은, 뷰잉 포지션에 대해 추정(프레딕션)된 픽쳐를 수신한다. 여기서 뷰잉 포지션은 타겟 뷰잉 포지션일 수 있다. 프레딕션 에러 디텍션(24000)은 뷰잉 포지션의 오리지널 픽쳐를 수신한다. 여기서 뷰잉 포지션의 오리지널 픽쳐는 뷰잉 포지션의 소스 픽쳐일 수 있다. 프레딕션 에러 디텍션(24000)은 오리지널 픽쳐 및 프레딕션 픽쳐를 서브트랙션(subtraction)하여 뷰잉 포지션에 대한 프레딕션 에러를 획득한다. 프레딕션 에러는 서브트랙션된 픽쳐 등으로 호칭될 수 있다.

에스티메이션 에러 디텍션(estimation error detection, 24001)은, 프레딕션 에러(서브트랙션된 픽쳐)를 수신한다. 에스티메이션 에러 디텍션(24001)은 프레딕션 에러로부터 에스티메이션 에러(estimation error)를 획득한다. 에스티메이션 에러 디텍션(24001)는 쓰레드홀(threshold) 방식을 사용하여 에스티메이션 에러를 획득한다. 에스티메이션 에러 디텍션(24001)는 에스티메이션 에러를 나타내는 에스티메이션 에러 맵을 생성한다.

오클루션 에러 디텍션(occlusion error detection, 24002)은, 프레딕션 에러(서브트랙션된 픽쳐)를 수신한다. 오클루션 에러 디텍션(24002)은 프레딕션 에러에 기반하여 오클루션 에러(occlusion error)를 획득한다. 예를 들어, 오리지널 픽쳐에 있고, 프레딕션 픽쳐에 없는 정보를 오클루션 에러로 감지할 수 있다. 오클루션 에러 디텍션(24002)은 오클루션 에러를 나타내는 오클루션 에러 맵을 생성한다.

에러-프론 리젼 디텍션(error-prone region detection, 24003)은, 에스티메이션 에러 맵 및/또는 오클루션 에러 맵에 기반하여 에러가 발생할 수 있는 영역(error-prone region)을 디텍션한다. 예를 들어, 에러-프론 리젼 디텍션(24003)은 에러-프론 리젼 디텍션을 통해 내재하는 데이터 픽쳐(inherent data picture)를 합치거나(merge) 또는 비어있는 픽셀(empty pixel)에 대한 블랙(black) 처리를 할 수 있다. 에러-프론 리젼 디텍션(24003)는 에러-프론 리젼을 나타내는 에러-프론 리젼 맵을 생성할 수 있다.

에러-프론 리젼 맵 포스트-프로세싱(error-prone region map post-processing, 24004)은, 에러-프론 리젼 맵을 수신한다. 에러-프론 리젼 맵 포스트-프로세싱은 에러-프론 리젼 맵을 강화(enhance)하기 위한 포스트-프로세싱을 한다. 예를 들어, 에러-프론 리젼 맵에 대해 딜레이션(dilation)하거나, 가드 밴드(guard band)를 추가할 수 있다. 에러-프론 리젼 맵 포스트-프로세싱(24004)는 에러-프론 리젼 맵을 생성하고, 서플리멘탈 에러-프론 리젼 메타데이터를 생성할 수 있다.

에러-프론 리젼 픽쳐 제너레이션(error-prone region picture generation, 24005)은, 인핸스된 에러-프론 리젼 맵을 수신한다. 에러-프론 리젼 픽쳐 제너레이션(24005)은 뷰잉 포지션의 오리지널 픽쳐를 수신한다. 에러-프론 리젼 픽쳐 제너레이션은 포스트-프로세싱된 에러-프론 리젼 맵 및/또는 오리지널 픽쳐에 기반하여 에러-프론 리젼 픽쳐를 생성한다.

프레딕션된 픽쳐(24006)는 프레딕션 에러 디텍션(24000)에 입력되는 픽쳐(영상 또는 데이터)를 나타낸다. 프레딕션 픽쳐(24006)는 홀(hole)을 포함한다. 홀은 프레딕션으로 인하여 생성된 홀을 의미한다. 예를 들어, 프레딕션된 픽쳐(24006)는 v0부터 v23까지 24개의 뷰를 포함할 수 있다.

서브트랙션된 픽쳐(24007)는 프레딕션 에러 디텍션(24000)에 의해 생성된 에러 픽쳐를 나타낸다. 예를 들어, 소스 픽쳐(오리지날 픽쳐)로부터 프레딕션된 픽쳐를 서브트랙팅하여 생성된 에러 픽쳐이다.

본 발명의 실시예들에 따른 프레딕션 에러 프로세싱의 각 과정을 구체적으로 설명한다.

프레딕션 에러 프로세싱(prediction error processing)는 타겟 뷰 프레딕션(target view prediction)을 통해 앵커 뷰 픽쳐(anchor view picture)로부터 예측할 수 없는 영역을 처리한다.

프레딕션 에러 프로세싱의 인풋(input) 데이터는 텍스쳐 및/또는 뎁스를 포함하는 프레딕션된 픽쳐(predicted picture (texture, depth)) 및/또는 텍스쳐 및/또는 뎁스를 포함하는 소스 뷰 픽쳐(source view picture (texture, depth))이다.

프레딕션 에러 프로세싱의 아웃풋(output) 데이터는 에러-프론 리젼 픽쳐(error-prone region picture), 에러-프론 리젼 맵(error-prone region map) 및/또는 서플리멘탈 에러-프론 리젼 메타데이터(supplemental error-prone region metadata)이다.

프레딕션 에러 디텍션(prediction error detection, 24000)는 타겟 뷰 프레딕션(target view prediction)으로 인하여 발생한 에러(error)를 추정한다. 예를 들어, 오리지널 픽쳐(original picture)로부터 추정된 픽쳐(predicted picture)를 서브트랙션(subtraction)하여 에러(에러 픽쳐)를 추정한다.

예를 들어, n번째 뷰잉 포지션의 에러 픽쳐는 다음과 같이 추정된다. n번째 뷰잉 포지션의 소스 뷰 픽쳐에서 n번째 뷰잉 포지션의 추정된 픽쳐를 서브트랙션한다. 또한, 다음 수식과 같이 에러를 획득할 수 있다(수식: e.g., error picture (of the n-th viewing position) = (source view picture (of the n-th viewing position) - predicted picture (of the n-th viewing position))/2 + 512).

에스티메이션 에러 디텍션(estimation error detection, 24001)는 앵커 뷰 픽쳐(anchor view picture)를 통해 정보를 추정할 수 있지만 정확도가 떨어지는 부분을 감지한다. 예를 들어, 쓰레스홀드( threshold)를 통해 프레딕션 에러(prediction error)를 감지할 수 있다. 본 발명의 실시예들에 따른 에스티메이션 에러(estimation error)는 다음의 수식과 같이 획득된다(e.g., estimation error (x.y pixel location) = minimum threshold < error picture (x, y) < maximum threshold). 여기서 미니멈 쓰레스홀드(minimum threshold)는 일정 정도 이상의 오류만을 프레딕션 에러(prediction error)로 포함하기 위한 목적이다. 맥시멈 쓰레스홀드(maximum threshold)는 오클루션 에러(occlusion error)를 구분하기 위한 목적이다. 프레딕션 에러 맵(prediction error map)은 프레딕션 에러(prediction error)가 있는 위치에 대해서만 값을 갖는 인디케이터(indicator) 역할을 한다.

오클루션 에러 디텍션(occlusion error detection, 24002)는 앵커 뷰 픽쳐(anchor view picture)를 통해 정보를 추정할 수 없는 부분을 감지한다. 프레딕션(prediction) 후 생기는 홀(hole, 정보가 없는 영역)을 통해 추정할 수 없는 부분을 추정 할 수 있다. 예를 들어, 다음과 같이 프레딕션 에러(prediction error)가 원본 픽셀값과 거의 유사하고 원본 픽셀의 값이 0이 아닌 경우 오클루션(occlusion) 으로 인해 발생하는 홀(hole)로 고려할 수 있다(e.g., occlusion error (x.y) = abs((error (x, y) - 512) * 2) - source view picture (x, y)) < threshold && source view picture (x, y) > threshold). 오클루션 맵(occlusion error map)은 오클루션 에러(occlusion error)가 발생했다고 판단되는 위치에 대해서만 값을 갖는 인디케이터(indicator) 역할을 한다.

에러-프론 리젼 디텍션(error-prone region detection, 24003)는 에러(error)의 종류를 에스티메이션 에러(estimation error)와 오클루션 에러(occlusion error)로 나누어 각각 서로 다른 형태로 처리 할 수 있다. 이 경우 에스티메이션 에러(estimation error)는 레지듀얼 데이터(residual data)를 전달하고, 오클루션 에러(occlusion error)는 원본 데이터로 홀(hole)을 채울 수 있는 서브스티튜터블 데이터(substitutable data)를 전달할 수 있다. 하지만 이 경우 고주파 성분으로 구성된 레지듀얼 데이터(residual data)와 상대적으로 저주파 성분이 주를 이루는 오클루션 데이터(occlusion data)의 서로 다른 특성으로 인해 압축 효율이 떨어질 수 있으며, 데이터 종류에 따라서 다른 코덱을 사용하거나 다른 영상으로 구성하는 경우 필요한 코덱의 수가 증가하여 송수신기에 부담이 될 수 있다. 이를 해결하기 위한 방법으로써 본 발명의 실시예들은 오류가 큰 에스티메이션 에러(estimation error)를 선별하여 오클루션 에러(occlusion error)와 같이 대체할 수 있는 정보를 전달하는 방법을 사용함으로써 1) 압축 코덱의 특성을 반영하여 실제 데이터로 영상을 구성할 수 있고, 2) patch 구성의 복잡도를 줄이며, 3) 코덱의 수를 줄인다. 또한, 레지듀얼 데이터(residual data)을 위한 코덱이 필요 없는 효과가 있다.

예를 들어, 프레딕션 에러 맵(prediction error map) 혹은 오클루션 에러 맵(occlusion error map) 중 하나라도 활성화(on) 되어있는 픽셀(pixel)의 경우 에러-프론 리젼(error-prone region) 임을 나타낼 수 있다. 이 때, 0 값을 갖는 부분은 에러(error)가 없음을 나타내며, 타겟 뷰 프레딕션(target view prediction)을 통해 추정한 정보를 사용할 수 있음을 나타내며, 0이 아닌 부분 (1 혹은 max 등)에 대해서는 error가 발생할 수 있는 영역 (prediction error, occlusion error 등) 임을 나타내고 target view prediction 을 통해 추정한 정보를 사용하지 않거나 혹은 추가적인 처리가 필요함을 나타낼 수 있다.

서플리멘탈 에러-프론 리젼 메타데이터(supplemental error-prone region metadata)에는 확장(dilation) 등을 통해 확장된 픽셀 너비(pixel width)를 전달하거나 가드 밴드(guard band) 위치 및 크기 정보, 에러(error)의 종류 (예를 들어, 에스티메이션 에러(estimation error) 또는 오클루션 에러(occlusion error)) 등이 전달될 수 있다.

에러-프론 리젼 맵 포스트-프로세싱(error-prone region map post-processing, 24004)는 에러-프론 리젼(error-prone region)의 정확도를 높이거나, 압축 과정에서 발생할 수 있는 추가적인 오류를 방지하기 위한 에러-프론 리젼 맵(error-prone region map)에 대한 후처리 과정이다. 예를 들어 에러-프론 리젼(error-prone region)의 주변부에 가드 밴드(guard band)를 추가하도록 처리할 수 있으며, 확장(dilation)과 같은 방법으로 에러-프론 리젼(error-prone region) 을 일정 정도 확장할 수 있다. 이 때, 후처리 과정으로 추가된 영역 정보를 전달할 수도 있고 (e.g., pixel width), 별도의 인디케이터(indication) 없이 전달할 수도 있다.

에러-프론 리젼 픽쳐 제너레이션(error-prone region picture generation, 24005)는 앞서 생성한 에러-프론 리젼 맵(error-prone region map)을 기반으로 추정 불가능 혹은 추정 오류가 큰 영역을 대체할 원본 영상 (예를 들어, 오리지널 픽쳐(original picture) 또는 소스 뷰 픽쳐(source view picture)) 정보로 영상을 구성할 수 있다.

에러-프론 리젼 맵(error-prone region map)은 수신기에 직접 전달될 수도 있고, 전달하는 에러-프론 리젼 픽쳐(error-prone region picture)를 통해 유추하여 생성할 수도 있다.

본 발명의 실시예들에 따른 프레딕션 에러 프로세싱의 프레딕션 에러 컨트롤러(Prediction error controller)는 프레딕션된 픽쳐를 소스 픽쳐에 기반하여 프레딕션 에러를 감지하고(Prediction error detection), 프레딕션 에러는 소스 픽쳐로부터 프레딕션 픽쳐를 서브트랙션(subtraction)하여 추정되고, 프레딕션 에러에 대응하는 에러 픽쳐로부터 쓰레드홀(threshold) 값에 기반하여 에스티메이션 에러를 획득하고(Estimation error detection), 에스티메이션 에러에 대한 위치 정보를 포함하는 에스티메이션 에러 맵(estimation error map)을 생성하고, 프레딕션 에러로부터 홀(hole)에 기반하여 오클루션 에러를 획득하고(Occlusion error detection), 오클루션 에러에 대한 위치 정보를 포함하는 오클루션 에러 맵(occlusion error map)을 생성하고, 에스티메이션 에러 맵 또는 오클루션 에러 맵 중 적어도 하나에 기반하여 타겟 뷰잉 포지션에 대한 프레딕션에 관련된 에러 발생 영역(error-prone region)을 감지하고, 에러 발생 영역에 대한 위치 정보를 포함하는 에러 발생 영역 맵(error-prone region map)을 생성하고, 에러 발생 영역 맵에 가드 밴드를 추가하거나 또는 에러 발생 영역 맵을 확장하는 포스트-프로세싱을 하고(error-prone region map post-processing), 에러 발생 영역 맵 및 소스 픽쳐에 기반하여 에러 발생의 영역에 관련된 픽쳐를 생성한다(Error-region picture generation),.

본 발명의 실시예들에 따른 비디오 송신 장치의 프레딕션 에러 컨트롤러(Prediction error controller)는 프레딕션된 픽쳐를 소스 픽쳐에 기반하여 프레딕션 에러를 감지하고(Prediction error detection), 프레딕션 에러는 소스 픽쳐로부터 상기 프레딕션 픽쳐를 서브트랙션(subtraction)하여 추정되고, 프레딕션 에러에 대응하는 에러 픽쳐로부터 쓰레드홀(threshold) 값에 기반하여 에스티메이션 에러를 획득하고(Estimation error detection), 에스티메이션 에러에 대한 위치 정보를 포함하는 에스티메이션 에러 맵(estimation error map)을 생성하고, 프레딕션 에러로부터 홀(hole)에 기반하여 오클루션 에러를 획득하고(Occlusion error detection), 오클루션 에러에 대한 위치 정보를 포함하는 오클루션 에러 맵(occlusion error map)을 생성한다.

프레딕션 에러 프로세싱은 에스티메이션 에러 디텍션(estimation error detection, 25000), 오클루션 에러 디텍션(occlusion error detection, 25001), 데이터 클래시피케이션(data classification, 25002), 에스티메이션 에러 리젼 디텍션(estimation region detection, 25003), 에스티메이션 에러 서브스티튜션(estimation error substitution, 25004), 에러-프론 리젼 맵 프로세싱(error-prone region map processing, 25005) 및/또는 에러-프론 리젼 픽쳐 제너레이션(error-prone region picture generation, 25006)를 포함한다.

에스티메이션 에러 디텍션(estimation error detection, 25000)은 타겟 뷰잉 포지션의 프레딕션된 픽쳐(predicted picture of target viewing position) 및 타겟 뷰잉 포지션의 소스 픽쳐(original picture of target viewing position또는 오리지널 픽쳐)를 수신한다. 에스티메이션 에러 디텍션(25000)는 추정된 픽쳐 및 오리지널 픽쳐 간 프레딕션 에러를 감지한다. 에스티메이션 에러 디텍션(25000)은 타겟 뷰잉 포지션에 대한 서브트랙트된 픽쳐(subtracted picture of target viewing position)를 생성한다. 구체적인 에스티메이션 에러 디텍션 방법은 도24에서 상술한 바와 같다. 예를 들어, 오리지널 픽쳐 및 프레딕션 픽쳐 간의 차이를 통해 뷰잉 포지션에 대한 서브트랙트된 픽쳐를 생성할 수 있다.

오클루션 에러 디텍션(occlusion error detection, 25001)은 프레딕션된 픽쳐로부터 오클루션 에러를 감지한다. 오클루션 에러 디텍션(25001)은 오클루션 에러의 위치 정보를 나타내는 오클루션 리젼 맵(occlusion region map)을 생성한다. 구체적인 오클루션 에러 디텍션(25001)는 도24에서 상술한 바와 같다.

데이터 클래시피케이션(data classification, 25002)은 타겟 뷰잉 포지션의 서브트랙트된 픽쳐를 수신한다. 데이터 클래시피케이션(25002)는 오클루션 리젼 맵을 수신한다. 데이터 클래시피케이션(25002)는 오클루션 리젼 맵 및 서브트랙트된 픽쳐에 기반하여 인히런트 데이터(inherent data 또는 오리지널 픽쳐 또는 소스 픽쳐) 및 에스티메이션 에러를 분류한다. 데이터 클래시피케이션(25002)는 분류된 에스티메이션 에러(estimation error picture또는 에스티메이션 에러 픽쳐)를 생성한다. 데이터 클래시피케이션(25002)는 프레딕션 에러 및 오클루션 에러를 종합하여 에러의 종류를 분류한다. 데이터 클래시피케이션(25002)는 분류된 오클루션 에러에 대한 오클루션 리젼의 인히런트 데이터 픽쳐(inherent data picture of occlusion region, 오리지널 픽쳐 또는 소스 픽쳐)를 생성한다.

에스티메이션 에러 리젼 디텍션(estimation region detection, 25003)은 에스티메이션 에러 픽쳐(estimation error picture또는 에스티메이션 에러)를 수신한다. 에스티메이션 에러 리젼 디텍션(25003)은 에스티메이션 에러의 리젼을 감지한다. 구체적인 에스티메이션 에러의 리젼을 감지하는 방법은 도24에서 상술한 바와 같다. 예를 들어, 쓰레스홀드(threshold or thresholding)를 통해 에스티메이션 에러가 발생한 리젼을 나타낼 수 있다. 에스티메이션 에러 리젼 디텍션(25003)는 에러가 발생할 수 있는 영역에 관한 정보를 나타내는 에러-프론 리젼 맵(error-prone region map)을 생성한다.

에스티메이션 에러 서브스티튜션(estimation error substitution, 25004)은 에러-프론 리젼 맵을 수신한다. 예를 들어, 에스티메이션 에러 서브스티튜션(25004)은 에러의 값이 큰 경우, 큰 에러를 인히런트 데이터로 대체한다. 에스티메이션 에러 서브스티튜션(25004)은 에러-프론 리젼의 인히런트 데이터 픽쳐(inherent data picture of the error-prone region)를 생성한다.

에러-프론 리젼 맵 프로세싱(error-prone region map processing, 25005)은 오클루션 리젼 맵을 수신한다. 에러-프론 리젼 맵 프로세싱(25005)는 에러-프론 리젼 맵을 수신한다. 에러-프론 리젼 맵 프로세싱(25005)는 에러-프론 리젼의 정확도를 증가시킨다. 에러-프론 리젼 맵 프로세싱(25005)는 인코딩 또는 압축과정에서 발생할 수 있는 추가적인 오류를 방지한다. 구체적인 에러-프론 리젼 맵 프로세싱 방법은 도24의 에러-프론 리젼 맵 포스트-프로세싱에서 상술한 바와 같다.

에러-프론 리젼 픽쳐 제너레이션(error-prone region picture generation, 25006)은 오클루션 리젼의 인히런트 데이터 픽쳐를 수신한다. 에러-프론 리젼 픽쳐 제너레이션(25006)는 에러-프론 리젼의 인히런트 데이터 픽쳐 및/또는 에러-프론 리젼 맵을 수신한다. 에러-프론 리젼 픽쳐 제너레이션(25006)는 에러-프론 리젼 픽쳐를 생성한다. 구체적인 에러-프론 리젼 픽쳐 제너레이션 방법은 도24에서 상술한 바와 같다.

프레딕션 에러 프로세싱(prediction error processing)는 타겟 뷰 프레딕션(target view prediction) 과정을 통해 앵커 뷰 픽쳐(anchor view picture)로부터 예측할 수 없는 영역을 처리하기 위한 과정이다. 프레딕션 에러 프로세싱의 인풋 데이터(inputs)는 텍스쳐 및/또는 뎁스를 포함하는 프레딕션된 픽쳐( predicted picture (texture, depth)), 텍스쳐 및/또는 뎁스를 포함하는 소스 뷰 픽쳐이다. 프레딕션 에러 프로세싱의 아웃풋 데이터(outputs)는 에러-프론 리젼 픽쳐, 에러-프론 리젼 맵, 및/또는 서플리멘탈 에러-프론 리젼 메타데이터이다.

도25의 프레딕션 에러 디텍션(25000), 오클루션 에러 디텍션(25001), 에러-프론 리젼 디텍션(25003), 에러-프론 리젼 픽쳐 제너레이션(25006), 에러-프론 리젼 맵 프로세싱(25005)은 도24에서 설명한 내용에 대응될 수 있다.

데이터 클래시피케이션(25002)는 프레딕션 에러 및 오클루션 에러를 종합하여 에러의 종류에 따라서, 에러에 관련된 데이터를 분류한다.

에스티메니션 에러 서브스티튜션(25004)은 에스티메이션 에러의 경우, 본 발명의 실시예들에 따른 비디오 송신 장치는 예측 오류에 대한 차분값을 전달할 수 있다. 나아가, 영상 데이터의 종류를 줄이기 위해서, 예측 오류에 대한 원본 영상 정보를 본 발명의 실시예들에 따른 비디오 송신 장치가 전달할 수 있다. 예를 들어, 예측 오류가 너무 큰 경우, 차분값을 전달하는 것이 더 비효율적인 경우, 본 발명의 실시예들에 따른 비디오 송신 장치는 원본 영상 정보를 전달하여 정보를 대체할 수 있다.

본 발명의 실시예들에 따른 프레딕션 에러 프로세싱의 프레딕션 에러 컨트롤러(Prediction error controller)는 타겟 뷰잉 포지션의 프레딕션된 픽쳐를 타겟 뷰잉 포지션의 소스 픽쳐에 기반하여 에스티메이션 에러를 감지하고(estimation error detection), 타겟 뷰잉 포지션의 서브트랙트된 픽쳐를 생성하고, 프레딕션된 픽쳐로부터 오클루션 에러를 감지하고(occlusion error detection), 오클루션 에러를 나타내는 오클루션 리젼 맵을 생성하고, 서브트랙트된 픽쳐 및 오클루션 리젼 맵에 기반하여 프레딕션 에러 및 오클루션 에러를 포함하는 에러의 종류를 분류하고(data classification), 프레딕션 에러에 대한 픽쳐에 기반하여 프레딕션된 픽쳐에 대한 프레딕션 에러의 리젼을 감지하고(estimation error region detection), 프레딕션 에러의 리젼을 나타내는 에러-프론 리젼 맵을 생성하고, 프레딕션 에러의 값이 일정값보다 큰 경우, 프레딕션 에러를 소스 픽쳐로 대체하고(estimation error substitution), 오클루션 리젼 맵 및 에러-프론 리젼 맵에 기반하여 에러 발생 영역을 나타내는 에러-프론 리젼 맵을 생성하고, 대체된 소스 픽쳐 및 오클루션 리젼의 소스 픽쳐에 기반하여 에러-프론 리젼 픽쳐를 생성한다(error-prone region picture generation).

패치 패킹 프로세싱은 리젼 클러스터링(region clustering, 26000), 패치 제너레이션(patch generation, 26001), 패치 제너레이션 포스트-프로세싱(patch generation post-processing, 26002), 및/또는 패치 패킹(patch packing, 26003)을 포함한다.

리젼 클러스터링(region clustering, 26000)은 에러-프론 리젼 픽쳐(error-prone region picture)를 수신한다. 리젼 클러스터링(26000)는 에러-프론 리젼 맵(error-prone region map)을 수신한다. 리젼 클러스터링(26000)은 에러-프론 리젼 맵에 기반하여 에러-프론 리젼 픽쳐의 리젼(영역)을 그룹핑(또는 클러스터링)한다. 리젼 클러스터링(26000)는 에러-프론 리젼 픽쳐의 리젼(영역)을 그룹핑하여 클러스터링 맵(clustering map)을 생성한다. 예를 들어, 매뉴얼 모드(manual mode)를 통해 리젼 클러스터링이 수행되거나 에러-프론 리젼 픽쳐에 포함된 인접한 픽셀들(neighborhood search)이 클러스터링될 수 있다.

패치 제너레이션(patch generation, 26001)은 에러-프론 리젼 픽쳐(error-prone region picture)를 수신한다. 패치 제너레이션(26001)은 타겟 뷰잉 포지션의 오리지널 픽쳐(original picture of target viewing position)를 수신한다. 패치 제너레이션(26001)는 클러스터링 맵(clustering map)을 수신한다. 패치 제너레이션(26001)은 에러-프론 리젼 픽쳐, 오리지널 픽쳐, 클러스터링 맵에 기반하여 에러-프론 리젼을 위한 오리지널 픽쳐의 패치(들)을 생성한다. 예를 들어, 패치의 모양은 렉텡큘러(rectangular), 버텍스(vertex) 등의 모양일 수 있다. 본 발명의 실시예들에 따른 패치의 모양은 다양하게 설정될 수 있다.

패치 제너레이션 포스트-프로세싱(patch generation post-processing, 26002)은 패치(들)을 수신한다(patches of original picture for the error-prone region). 패치 제너레이션 포스트-프로세싱(26002)은 타겟 뷰잉 포지션의 오리지널 픽쳐를 수신한다. 패치 제너레이션 포스트-프로세싱(26002)은 클러스터링 맵을 수신한다. 패치 제너레이션 포스트-프로세싱(26002)은 패치, 오리지널 픽쳐 및/또는 클러스터링 맵에 기반하여 가드 리젼(guard region)을 갖는 패치(들)을 생성한다(patches with guard region). 예를 들어, 패치 제너레이션 포스트-프로세싱(26002)은 렉텡큘러 모양의 패치 내의 빈 공간들을 오리지널 픽쳐의 픽셀로 채운다(fill-in the rectangular). 또한, 패치 제너레이션 포스트-프로세싱(26002)은 패치 바운더리로부터 일정한 패치 너비에 해당하는 가드 밴드(X pixel width from the patch boundary)를 생성할 수 있다. 본 발명의 실시예들에 따른 패치 제너레이션 포스트-프로세싱(26002)은 옵셔널(optional)하게 수행될 수 있다.

패치 패킹(patch packing, 26003)은 에러-프론 리젼을 위한 오리지널 픽쳐의 패치(들)(patches of original picture for the error-prone region)을 수신하거나 또는 가드 리젼을 갖는 패치들(patches with guard region)을 수신한다. 패치 패킹(26003)은 수신된 패치에 기반하여 가드 리젼을 갖는 패치들의 패킹된 픽쳐(packed picture of the patches with guard region)를 생성한다. 또는 패치 패킹(번26003호)는 패치들의 패킹된 픽쳐를 생성한다. 패치 패킹(26003)은 패치 패킹에 관련된 시그널링 정보를 포함하는 패킹 메타데이터(packing metadata)를 생성한다.

본 발명의 실시예들에 따른 패치 패킹 프로세싱의 데이터는 다음과 같다.

에러-프론 리젼 픽쳐(error-prone region picture, 26004)는 패치 패킹 프로세싱의 인풋 데이터이다. 예를 들어, 총 24개의 뷰에 대한 데이터(v0 부터 v23)가 입력될 수 있다. 에러-프론 리젼 픽쳐(26004)는 상술한 서브트랙션된 픽쳐에 대응된다. 예를 들어, 에러-프론 리젼 픽쳐(26004)는 오리지널 픽쳐 및 프레딕션된 픽쳐 간의 차이로 인해 생성된 픽쳐이다.

패치들(patches, 26005)은 패치 제너레이션(26005)에 의해 생성된 패치들이다. 예를 들어, 총 24개의 뷰에 대한 데이터(v0 부터 v23)가 있는 경우, 각 뷰에 대한 데이터마다 의미 있는 데이터를 포함하는 리젼(영역)을 포함하는 패치들이 생성될 수 있다. 에러-프론 리젼 픽쳐에 포함된 음영 처리된 영역은 의미 없는 데이터이고, 의미 있는 데이터를 포함하는 리젼이 패치에 포함된다.

패킹된 패치들(packed patches, 26006)은 패치 패킹(26003)에 의해 생성된 패킹된 패치들이다. 예를 들어, 총 24개의 뷰에 대한 데이터(v0 부터 v23)에 대해 생성된 패치들이 패킹된다. 패킹된 패치들은 패치 제너레이션 포스트-프로세싱(26006)의 의해 생성된 가드 리젼을 포함할 수 있다. 각 패킹된 패치 간 가드 리젼이 포함될 수 있다.

패킹된 패치(packed patch(all in one), 26007)는 패치 패킹(26003)에 의해 생성된 패킹된 패치이다. 예를 들어, 총 24개의 뷰에 대한 데이터(v0 부터 v23)에 대해 생성된 패치들을 하나로 모아서(all in one) 하나의 패치가 패킹될 수 있다.

본 발명의 실시예들에 따른 패킹 프로세싱의 구체적인 동작은 다음과 같다.

패킹 프로세스(packing process)은 추정 불가능한 영역의 정보를 효율적으로 전달하기 위한 과정이다. 이 과정을 통해 전체 영상 중 정보가 없는 영역을 제거하기 때문에 전달해야 하는 영상의 크기가 줄거나, 전달해야하는 영상의 전체 개수를 줄임으로써 전달해야하는 데이터량을 줄이는 효과가 있다.

리젼 클러스터링(region clustering, 26000)은 프레딕션 에러 프로세싱(prediction error processing)을 통해 생성된 에러-프론 리젼 픽쳐(error-prone region picture) 중 전달해야 하는 영역의 그룹을 짓는 과정이다. 가장 스파스(sparse) 하게는 에러-프론 리젼 맵(error-prone region map)에서 인디케이팅(indication) 된 픽셀(pixel)을 각각 전달할 수 있겠지만, 이 경우 각 픽셀(pixel)을 인디케이팅(indication)하는 정보량이 최대로 늘어나기 때문에 데이터(data) 전달의 효율성이 떨어진다. 따라서 연관된 정보를 묶어서 전달하기 위한 그룸핑(grouping) 과정이 필요하다. 이 때, 사용자가 직접 그룹(group)을 지어줄 도 있고, 공간상으로 인접한 픽셀(pixel)이 유효 픽셀(pixel)인 경우 그룹(group)으로 묶어주는 방법을 사용할 수 있다. 그 결과 리젼 클러스터링 맵(region clustering map)을 통해 복수의 그룹에 속한 픽셀(pixel)들이 표시되며, 에러-프론 리젼(error-prone region) 내의 모든 유효 픽셀은 리젼 클러스터링 맵(region clustering map)의 그룹 중 하나에 포함되어야 한다.

패치 제너레이션(patch generation, 26001)은 프레딕션 에러 프로세싱(prediction error processing)을 통해 생성된 에러-프론 리젼 픽쳐(error-prone region picture) 중 전달해야 하는 영역을 선별하고 각각을 패치(patch)로 구성하는 과정이다. 도면을 참조하면 회색으로 표현된 부분이 데이터(data)가 없는 영역인데, 유효 픽셀(pixel)이 있는 부분을 포함하는 렉텡큘러(rectangular) 영역으로 포함하도록 하였다. 렉텡큘러(rectangular) 영역을 사용한 이유는 패킹(packing) 된 패치(patch)의 위치를 수신기에 알려주고 수신기에서 필요한 패치(patch)를 효율적으로 사용하기 위해서 이다. 하지만 렉텡큘러 패치 리젼(rectangular patch region) 내에 불필요한 부분이 다수 포함되기 때문에 임의의 모양의 패치(patch)를 사용함으로써 혹은 미리 약속된 다양한 모양의 패치 리젼(patch region)을 사용함으로써 컴팩트(compact)하게 패치(patch)를 구성할 수도 있다.

패치 제너레이션 포스트-프로세싱(patch generation post-processing, 26002)은 생성된 패치(patch)에 대한 후처리 과정이다. 예를 들어 패치(patch) 내의 빈 공간들을 오리지널 픽쳐 데이터(original picture data)로 채움으로써 수신기에서 프레딕션(prediction)을 위해 필요한 연산을 줄일 수 있으며, 그리고/혹은 패치 패킹(patch packing) 및 인코딩/디코딩(encoding/decoding) 으로 인해 발생할 수 있는 오류를 방지하기 위해 패치(patch)의 가드 밴드(guard band)를 생성하는 작업을 수행할 수 있다.

패치 패킹(patch packing)은 앞서 생성된 패치(patch)를 하나 혹은 복수의 영상으로 구성하고, 각 패치(patch)에 대한 정보를 생성하는 과정이다. 영상으로 구성할 때 각 뷰잉 포지션(viewing position)에 대한 패치(patch)만을 모아서 각각의 영상으로 구성할 수도 있고, 복수의 뷰잉 포지션(viewing position)에 대한 패치(patch)를 모아서 하나의 영상으로 구성할 수 도 있다. 이 때, 필요한 경우 패치(patch)의 크기 조정, 로테이션(rotation), 플립(flip) 등을 통해 효율적으로 패킹(packing) 할 수 있다. 패킹 메타데이터(packing metadata)에는 언패킹(unpacking)을 위해 필요한 정보가 포함되며, 패치(patch)의 크기, 위치, 조정된 정보 (크기조정, 로테이션(rotation), 플립(flip) 등), 원본 영상에서의 위치, 크기, 가드 밴드(guard band) 정보, 에러(error)의 종류 (estimation error / occlusion error) 등이 전달될 수 있다.

본 발명의 실시예들에 따라, 프루닝(pruning) 과정 없이 패킹(packing)만이 사용되는 경우가 있다. 예를 들어, 도22와 같이 타겟 뷰 프레딕션 프로세싱(22002) 및 프레딕션 에러 프로세싱(22001)를 포함하는 프루닝 과정이 옵셔널한 모드가 있을 수 있다. 이 경우 모든 뷰(view) 혹은 일부의 뷰(view)에 대해 풀 픽쳐(full picture)를 대상으로 패킹(packing) 할 수 있으며, 영역의 중요도 (예를 들어 사용자의 뷰잉 다이렉션(viewing direction) / 뷰잉 포지션(viewing position), 혹은 퀄리티(quality))에 따라 서로 다른 가중치를 두어 패킹(packing) 할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치의 패치 패킹 컨트롤러는, 에러-프로 리젼 맵에 기반하여 프레딕션 에러 프로세싱된 픽쳐의 에러-프론 리젼 픽쳐(error-prone region picture)를 구분하는 리젼을 클러스터링하고(region clustering), 리젼을 나타내는 클러스터링 맵(clustering map)을 생성하고, 소스 픽쳐 및 클러스터링 맵에 기반하여 상기 에러-프론 리젼 픽쳐로부터 패치를 생성하고(patch generation), 패치를 이용하여 하나 또는 하나 이상의 픽쳐를 생성(patch packing)한다.

비디오 송신 장치의 인코더는 로테이션/프로젝션(rotation/projection, 27000), 프리프로세싱(preprocessing, 27001), 및/또는 인코딩(encoding, 27002)을 수행한다.

로테이션/프로젝션(27000)은 텍스쳐 및/또는 뎁스를 포함하는 멀티플 스페리컬 비디오 및/또는 이미지(multiple spherical video/image(texture/depth))를 수신한다. 로테이션/프로젝션(27000)은 멀티플 스페리얼 비디오/이미지를 로테이션 및/또는 프로젝션하여 텍스쳐 및/또는 뎁스를 포함하는 프로젝션된 픽쳐를 생성한다. 로테이션/프로젝션(27000)은 프로젝션 과정에 관련된 시그널링 정보를 포함하는 프로젝션 파라미터(projection parameters)를 생성한다.

프리프로세싱(27001)은 프로젝션된 픽쳐를 수신한다. 예를 들어, 프리프로세싱(27001)은 인터-뷰 리던던시 리무벌(inter-view redundancy removal), 및/또는 패킹(packing)을 포함한다. 인터-뷰 리던던시 리무벌은 멀티플 프로젝션된 픽쳐 중 인접한 픽쳐 간의 리던던시를 리무브한다. 패킹은 멀티플 프로젝션된 픽쳐를 픽쳐로 패킹한다. 프리프로세싱(27001)은 프리프로세싱에 관련된 시그널링 정보를 포함하는 프리프로세싱 메타데이터(preprocessing metadata)를 생성한다.

인코딩(27002)은 패킹된 픽쳐를 수신한다. 인코딩(27002)은 프리프로세싱 메타데이터를 수신한다. 인코딩(27002)은 프로젝션 파라미터를 수신한다. 인코딩(27002)은 프리프로세싱 메타데이터 및/또는 프로젝션 파라미터에 기반하여 패킹된 픽쳐를 인코딩한다. 인코딩된 데이터는 비트스트림의 형태로 서버를 통해 비디오 수신 장치로 전송된다.

도27의 인코더는 도22의 프리-인코더에 대응되고, 결합될 수 있다.

비디오 수신 장치의 디코더는 디코딩(decoding, 27003), 뷰 리컨스트럭션(view reconstruction, 27004), 뷰 신테시스(view synthesis, 27005), 렌더링/뷰포트 제너레이션(rendering/viewport generation, 27006)을 수행한다.

디코딩(27003)은 비디오 송신 장치로부터 서버를 통해 비트스트림을 수신한다. 디코딩(27003)은 뷰잉 포지션 및/또는 뷰포트 인포메이션을 수신한다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림에 포함되어 전송될 수 있다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림과 별도로 수신단에서 피드백 정보로 수신될 수 있다. 디코딩(27003)은 비트스트림에 포함된 데이터를 디코딩하여 패킹된 픽쳐를 생성한다. 디코딩(27003)은 비트스트림에 포함된 데이터를 디코딩하여 리컨스트럭션 파라미터(reconstruction parameters)를 생성한다. 디코딩(27003)은 비트스트림에 포함된 데이터를 디코딩하여 뷰 신테시스 파라미터(view synthesis parameters)를 생성한다.

뷰 리컨스트럭션(27004)은 패킹된 픽쳐를 수신한다. 뷰 리컨스트럭션(27004)은 리컨스트럭션 파라미터에 기반하여 패킹된 픽쳐로부터 텍스쳐 및/또는 뎁스를 포함하는 픽쳐를 생성(리컨스트럭션)한다. 뷰 리컨스트럭션(27004)는 뷰잉 포지션 및/또는 뷰포트 인포메이션을 수신한다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림에 포함되어 전송될 수 있다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림과 별도로 수신단에서 피드백 정보로 수신될 수 있다. 뷰 리컨스트럭션(27004)는 뷰잉 포지션 및/또는 뷰포트 인포메이션에 기반하여 픽쳐를 리컨스럭션할 수 있다.

뷰 신테시스(27005)는 텍스쳐 및/또는 뎁스를 포함하는 픽쳐를 수신한다. 뷰 신테시스(27005)는 뷰 신테시스 파라미터를 수신한다. 뷰 신테시스(27005)는 수신한 픽쳐로부터 뷰 신테시스 파라미터에 기반하여 타겟 뷰잉 포지션에 대한 픽쳐를 생성한다. 타겟 뷰잉 포지션에 대한 픽쳐는 텍스쳐를 포함한다. 뷰 신테시스(27005)는 뷰잉 포지션 및/또는 뷰포트 인포메이션을 수신한다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림에 포함되어 전송될 수 있다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림과 별도로 수신단에서 피드백 정보로 수신될 수 있다. 뷰 신테시스(27005)는 뷰잉 포지션 및/또는 뷰포트 인포메이션에 기반하여 타겟 뷰잉 포지션에 대한 픽쳐(텍스쳐)를 신테사이즈할 수 있다.

렌더링/뷰포트 제너레이션(27006)은 타겟 뷰잉 포지션에 대한 픽쳐(텍스쳐)를 수신한다. 렌더이/뷰포트 제너레이션(27006)은 뷰잉 포지션 및/또는 뷰포트 인포메이션을 수신한다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림에 포함되어 전송될 수 있다. 뷰잉 포지션 및/또는 뷰포트 인포메이션은 비트스트림과 별도로 수신단에서 피드백 정보로 수신될 수 있다. 렌더이/뷰포트 제너레이션(27006)은 타겟 뷰잉 포지션에 대한 픽쳐(텍스쳐)를 렌더링하고, 타겟 뷰포트에 대한 픽쳐(텍스쳐)를 생성한다. 렌더링/뷰포트 제너레이션(27006)은 뷰잉 포지션 및/또는 뷰포트 인포메이션에 기반하여 타겟 뷰포트에 대한 픽쳐(텍스쳐)를 생성한다. 타겟 뷰포트에 대한 픽쳐(텍스쳐)는 디스플레이된다.

본 발명의 실시예들에 따른 비디오 송신 장치(인코더)는 이하의 동작을 수행할 수 있다.

뷰잉 볼륨 제너레이션(Viewing volume generation, 28000)은 임의의 다시점에 대한 360 비디오 데이터를 대상이 되는 신(Scene)으로부터 획득한다. 뷰잉 볼륨 제너레이션은 신의 정보를 CG 그래픽의 형태로 수신할 수 있고, 신에 대한 3D 공간을 고려하여 뷰잉의 볼륨을 생성할 수 있다. 그 결과, 텍스쳐 및 뎁스를 포함하는 멀티 스페리컬 비디오(multiple spherical videos)가 생성된다.

여기서 신(scene)은 카메라로부터 획득된 영상을 의미하고, CG는 컴퓨터 그래픽스 등의 사전 처리를 통해 획득된 영상을 의미한다.

뷰잉 볼륨 제너레이션은 뷰잉 볼륨에 관련된 뷰잉 스페이스 파라미터를 생성한다. 뷰잉 볼륨(viewing volume)은 3DoF+를 지원하는 공간을 의미한다. 카메라가 촬영한 영상을 그대로 사용하기 보다는 컴퓨터 그래픽스 등의 처리를 통해서 3차원 공간 상에서 가상 시점(virtual view)의 영상을 합성하고 합성된 영상을 3DoF+영상으로 만드는 과정을 나타낸다.

버츄얼 카메라 캡쳐링(Virtual camera capturing, 28001)은 각 뷰잉 포지션에 대한 멀티-스피어(mulita-sphere)를 생성하기 위해서 가상의 카메라 캡쳐링을 수행할 수 있다. 뷰잉 볼륨에 기반하여 가상의 카메라 캡쳐 정보를 생성할 수 있다. 버츄얼 카메라 캡쳐링은 선택적으로 수행될 수 있다.

프로젝션된 텍스쳐/뎁스 제너레이션(Projected texture/depth generation for each viewing position, 28002)은 각 뷰잉 포지션에 대한 텍스쳐/뎁스를 포함하는 프로젝션된 픽쳐를 생성하고, 프로젝션된 픽쳐를 합성하기 위한 뷰 신테시스 파라미터를 생성한다.

인터-뷰 리던던시 리무벌(inter-view redundancy removal, 28003)은 프로젝션된 픽쳐에 대한 뷰 간 리던던시를 제거하여 텍스쳐 및 뎁스를 포함하는 픽쳐를 생성한다. 인터-뷰 리던던시 리무벌 은 텍스쳐에 대한 패치 및 레지듀얼을 고려한 최적의 픽쳐를 생성하고, 픽쳐를 리컨스트럭션하기 위한 리컨스트럭션 파라미터를 생성한다.

패킹(Packing, 28004)은 복수의 픽쳐들을 패킹하여 패킹된 픽쳐를 생성하고, 픽쳐의 패킹에 관련된 패킹 메타데이터를 생성한다.

인코딩(Encoding, 28005)은 패킹된 픽쳐를 인코딩한다. 인코딩은 상술한 동작에서 생성된 뷰잉 스페이스 파라미터, 뷰 신테시스 파라미터, 리컨스트럭션 파라미터, 및/또는 패킹 메타데이터에 기반하여 픽쳐에 포함된 데이터를 인코딩한다.

서버(server)를 통해 인코딩된 데이터를 비트스트림의 형태로 비디오 송신 장치(인코더)에서 비디오 수신 장치(디코더)로 전송한다. 여기서 뷰잉 포지션 정보 및/또는 뷰포트 정보가 함께 전송될 수 있다.

상술한 비디오 송신 장치의 각 동작은 비디오 송신 장치에 포함된 뷰잉 볼륨 제너레이터, 버츄얼 카메라 캡쳐러, 프로젝터, 인터-뷰 리던던시 리무버, 패킹 유닛, 인코더 등에 의해 수행될 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치는 이하의 동작을 수행할 수 있다.

버츄얼 카메라 캡쳐링(Virtual camera capturing, 28006)은 컴퓨터로 생성된 그래픽 데이터를 수신하여 각 뷰잉 포지션에 대한 멀티-스페리컬 데이터를 생성한다. 버츄얼 카메라 캡쳐링은 텍스쳐 및 뎁스를 포함하는 멀티플 스페리컬 비디오들을 생성하고, 멀티플 스페리컬 비디오에 관련된 뷰잉 스페이스 파라미터를 생성한다.

로테이션/프로젝션(Rotation/projection, 28007)은 덱스쳐 및 뎁스를 포함하는 복수의 스페리컬 비디오들을 로테이션 및/또는 프로젝션하여 프로젝션된 픽쳐들을 생성한다. 또한, 픽쳐를 뷰 합성하기 위한 뷰 신테시스 파라미터를 생성한다.

인터-뷰 리던던시 리무벌(inter-view redundancy removal, 28008)은 프로젝션된 픽쳐에 대한 뷰 간에 리던던시를 제거한다. 인터-뷰 리던던시 리무벌은 패치/레지듀얼(텍스쳐)에 대해 최적화된 뷰 간 리던던시가 제거된 픽쳐를 생성하고, 픽쳐를 리컨스트럭션하기 위한 리컨스트럭션 파라미터를 생성한다.

패킹(Packing, 28009)은 복수의 픽쳐들을 패킹하여 최적의 픽쳐를 생성한다. 패킹은 패킹된 픽쳐를 나타내기 위한 패킹 메타데이터를 생성한다.

인코딩(Encoding, 28010)은 패킹된 픽쳐를 인코딩한다. 인코딩은 상술한 동작에서 생성된 뷰잉 스페이스 파라미터, 뷰 신테시스 파라미터, 리컨스트럭션 파라미너, 및/또는 패킹 메타데이터에 기반하여 패킹된 픽쳐에 포함된 데이터를 인코딩한다.

상술한 비디오 송신 장치의 각 동작은 버츄얼 카메라 캡쳐러, 로테이터/프로젝터, 인터-뷰 리던던시 리무버, 패킹 유닛, 인코더 등에 의해 수행될 수 있다.

본 발명의 실시예들에 따른 비디오 수신 장치(디코더)는 이하의 동작을 수행할 수 있다.

서버(Server)를 통해 비디오 수신 장치는 데이터를 비디오 송신 장치로부터 수신할 수 있다.

디코딩(Decoding, 29000)은 비트스트림에 포함된 데이터를 디코딩한다. 디코딩은 데이터를 디코딩하여 패킹된 픽쳐를 생성하고, 비트스트림에 포함된 데이터로부터 패킹된 픽쳐를 언패킹하기 위한 언패킹 메타데이터, 픽쳐를 리컨스트럭션하기 위한 리컨스트럭션 파라미터, 픽쳐에 대한 뷰를 합성하기 위한 뷰 합성 파라미터 등을 생성할 수 있다.

언패킹(Unpacking, 29001)은 하나 또는 하나 이상의 패킹된 픽쳐를 언패킹하여 복수의 픽쳐들을 생성한다. 언패킹된 픽쳐는 텍스쳐 및 뎁스를 포함하는 픽쳐들이고, 패치/레지듀얼(텍스쳐) 관점에서 최적화된 픽쳐들이다. 언패킹은 언패킹 메타데이터에 기반하여 패킹된 픽쳐를 언패킹한다.

뷰 제너레이션(View generation, 29002)은 언패킹된 픽쳐들에 대한 뷰를 생성한다. 뷰 제너레이션은 리컨스트럭션 파라미터들에 기반하여 픽쳐로부터 뷰를 생성한다.

뷰 신테시스(View synthesis, 29003)는 생성된 뷰를 포함하는 픽쳐들을 수신하여, 타겟 뷰잉 포지션에 기반한 텍스쳐에 대한 픽쳐를 생성한다. 뷰 신테시스는 뷰 신테시스 파라미터들에 기반하여 픽쳐를 생성(합성)한다.

렌더링/뷰포트 제너레이션(rendering/viewport generation, 29004)은 합성된 뷰에 대한 뷰포트를 생성하고, 타겟 뷰포트에 기반한 텍스쳐에 대한 픽쳐를 렌더링한다.

디스플레이(Display)는 타겟 뷰포트에 대한 픽쳐를 디스플레이한다.

상술한 비디오 수신 장치의 각 동작은 인코더로부터 수신한 뷰잉 포지션 정보 및/또는 뷰포트 정보 및/또는 디스플레이 유닛으로부터 수신한 피드백 정보를 추가적으로 사용할 수 있다.

상술한 비디오 수신 장치의 각 동작은 디코더, 언패킹 유닛, 뷰 제너레이터, 뷰 신테사이저, 렌더링/뷰포트 제너레이터 등에 의해 수행될 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 실시간 움직임을 반영한 3DoF+ 비디오 송수신 시스템을 제공한다.

본 발명의 실시예들에 따른 비디오 송신 방법 및 비디오 수신 방법은 수신기의 부담을 줄이고, 수신기의 레이턴시(latency)를 줄일 수 있다. 구체적으로, 뷰 에스티메이션 및 리컨스트럭션(View estimation and reconstruction) 과정은 시점 간의 리던던시를 제거한다. 예를 들어, 3D 프레딕션 및 패치(3D prediction & patch) 및 2D 프레딕션 및 패치(2D prediction & patch)이 사용될 수 있다. 또한, 멀티플 뷰잉 포지션들의 텍스쳐, 뎁스, 패치 등이 다른 픽쳐들을 패킹하여 높은 코딩 효율을 가진 최적 또는 최소의 사이즈를 갖는 픽쳐를 생성할 수 있다. 또한, 수신기에 최적화된 영상을 생성할 수 있다. 예를 들어, 레이어드 패치(layerd patch)가 사용될 수 있고, 이는 뷰 제너레이션 및 뷰 신테시스(view generation & view synthesis)를 동시에 처리할 수 있는 효과를 제공한다. 또한, 로우 딜레이의 시점 변화를 위한 영상을 생성할 수 있다. 예를 들어, MCTS를 이용해서 동일한 뷰잉 디렉션(view direction)을 묶어서 처리할 수 있다.

추가적으로, 본 발명의 실시예들에 따른 비디오 송신 방법 및 비디오 수신 방법은 다시점 3DoF+영상을 생성할 수 있다. 구체적으로, 뷰 신테사이저는 뷰 제너레이션 에러에 강인하여, 뷰 신테사이저의 성능을 개선할 수 있다. 또한, 뷰 신테사이저는 뷰포트 디펜던트하고, 렌더러와 통합되어 뷰 신테사이저의 성능을 최적화할 수 있다.

본 발명의 실시예들에 따른 비디오 송신 장치 및 비디오 수신 장치는 이하의 메타데이터를 생성하고 사용할 수 있다.

언패킹 메타데이터(Un-packing metadata)는 디코딩에 관한 구성 정보를 포함한다. 디코딩은 데이터를 디코딩하면서 디코딩된 픽쳐의 구성에 관한 구성 정보를 언패킹 메타데이터로써 생성한다. 언패킹 메타데이터는 픽쳐에 포함된 덱스쳐, 패치, 레지듀얼, 뎁스, 오버레이 등에 관한 속성 정보를 포함한다. 언패킹 메타데이터는 패킹된 픽쳐의 각 부분에 대한 속성 정보, 패킹된 픽쳐의 각 부분이 어느 뷰잉 포지션에 대응하는지에 관한 정보, 패킹된 픽쳐의 각 부분이 프로젝션된 픽쳐 상에서 어느 위치에 해당하는지에 관한 정보를 포함한다. 또한, 언패킹 메타데이터는 디코딩된 픽쳐를 위한 스파셜 스케일링(spatial scaling), 트랜스포메이션(transformation), 밝기 스케일링 정보 등을 포함할 수 있다.

뷰 제너레이션 파라미터로써 리컨스트럭션 파라티터(reconstruction parameter)가 사용될 수 있다. 뷰 제너레이션은 언패킹 이후 텍스쳐, 패치, 레지듀얼을 조합하여 텍스쳐 또는 텍스쳐를 포함하는 픽쳐를 생성한다. 따라서, 리컨스트럭션 파라미터는 픽쳐들을 뷰 합성하기 위한 텍스쳐, 패치, 레지듀얼의 조합에 관련된 정보를 포함한다. 또한, 뷰 제너레이션은 뷰 에스티메이션을 추가로 수행할 수 있으므로, 리컨스트럭션 파라미터는 뷰 에스티메이션에 관련된 정보를 포함한다. 구체적으로, 리컨스트럭션 파라미터는 어느 뷰잉 포지션(들)의 텍스쳐 및 뎁스를 이용해서 프레딕션을 하는지에 관련된 정보, 뷰 에스티메이션의 방법을 나타내는 정보(예를 들어, 뷰 신테사이저 방법, 3D 프레딕션, 2D 프레딕션 등의 타입 정보) 등을 포함할 수 있다. 여기서 3D 프레딕션은 픽쳐를 3D 공간 상에서 리프로젝션(reprojection)을 하는 방법을 의미한다. 예를 들어, 뷰잉 포지션 B에 랩핑(wraping)하는 방법을 의미한다. 또한, 2D 프레딕션은 픽쳐를 프로젝션 포맷 상에서 모션 에스티메이션을 하는 방법을 의미한다. 예를 들어, 오브젝트/뷰잉 디렉션 기반의 모션 에스티메이션(object/viewing direction-based motion estimation)을 의미한다. 리컨스트럭션 파라미터는 패치/레지듀얼을 처리하는 방법을 나타내는 정보를 포함할 수 있다.

뷰 신테시스는 텍스쳐 및 뎁스를 포함하는 픽쳐를 각 뷰잉 포지션에 대한 신호(또는 정보)를 사용하여 뷰를 합성하므로, 뷰 신테시스 파라미터(view synthesis parameter)가 필요하다. 구체적으로, 뷰 신테시스 파라미터는 비디오의 텍스쳐 및 뎁스를 나타내는 정보, 현재 비디오에 대한 정보를 포함할 수 있다. 예를 들어, 현재 비디오에 대한 정보는 뷰포인트 및 뷰잉 포지션 등을 의미할 수 있다. 뷰 신테시스 파라미터는 이동 가능한 비디오에 대한 정보를 포함할 수 있다. 예를 들어, 이용 가능한 뷰포인트들 및 뷰잉 스페이스 정보 등을 의미할 수 있다. 뷰 신테시스 파라미터는 소스 뷰잉 포지션의 위치를 나타내는 정보, 뎁스의 존재 여부를 나타내는 정보, 뎁스의 니어(near)/파(far)의 범위를 나타내는 정보, 리컨스럭티드 뷰(reconstructed view)의 존재 여부를 나타내는 정보, 퀄리티(quality)를 나타내는 정보, 레졸루션(resolution)을 나타내는 정보, 카메라 파라미터를 나타내는 정보 등 뷰 신테시스를 위한 정보를 포함할 수 있다.

상술한 메타데이터는 본 명세서에서 시그널링 정보, 제1시그널링 정보, 제1정보 등으로 다양하게 명명될 수 있다.

본 발명의 실시예들에 따른 인코더(송신기)는 다음의 메타데이터를 시그널링할 수 있다.

예를 들어, 프레딕션 에러 프로세싱(prediction error processing) 및 타겟 뷰 프레딕션 프로세싱(target view prediction processing)은 타겟 뎁스 리제너레이션 인포메이션 SEI 메시지(Texture depth regeneration information SEI message)를 통해 시그널링될 수 있다. 이를 통하여, 패치 및/또는 레지듀얼을 생성하는 방법과 관련된 메타데이터를 시그널링할 수 있다. 또한, 뷰 에스티메이션(view estimation) 관련하여, 어느 뷰잉 포지션(들)(viewing position(s))의 텍스쳐/뎁스(texture/depth)를 이용해 프레딕션(prediction) 하는지를 나타내는 시그널링 정보, 어떤 방법으로 뷰 에스티메이션(view estimation)을 하는지(예를 들어, 뷰 신테사이즈 메소드(view synthesizer method), 3D prediction(3D 공간 상에서 reprojection (e.g. warping to viewing position B), 2D prediction: projection format 상에서 motion estimation (e.g., object/viewing direction-based motion estimation))를 나타내는 시그널링 정보 등이 있을 수 있다.

예를 들어, 패치 패킹(patch packing)은 멀티뷰 리젼=와이즈 패킹 SEI 메시지(Multiview Region-wise Packing SEI message)를 통해 시그널링될 수 있다. 구체적으로, 패치된 픽쳐(patched picture)가 어떻게 구성되어있는지를 나타내는 시그널링 정보, 각 부분이 어떤 속성인지(예를 들어, 텍스쳐, 패치, 레지듀얼, 뎁스, 오버레이 등(texture, patch, residual, depth, overlay))를 나타내는 시그널링 정보, 각 부분이 어느 뷰잉 포지션(viewing position)에 속해있는지를 나타내는 시그널링 정보, 각 부분이 인코딩된 픽쳐(encoded picture) 내에서 어느 위치인지를 나타내는 시그널링 정보, 스파셜 스케일링(spatial scaling), 트랜스포메이션(transformation), 밝기 스케일링(scaling) 등을 나타내는 시그널링 정보 등이 있을 수 있다.

예를 들어, 전체 영상에 대한 정보는 뷰잉 포지션 인포메이션 SEI 메시지(Viewing position information SEI message) 또는 헤드 모션 인포메이션 SEI 메시지(Head motion information SEI message)을 통해 시그널링될 수 있다. 구체적으로, 비디오 텍스쳐(texture), 뎁스(depth)를 나타내는 시그널링 정보, 현재 비디오에 대한 정보 (viewpoint, viewing position)를 나타내는 시그널링 정보, 이동 가능 비디오에 대한 정보 (available viewpoints, viewing space)를 나타내는 시그널링 정보, 뷰 신테사이즈 파라미터(view synthesis parameter (source viewing position 위치, depth 존재 여부, depth near/far 범위, reconstruced view 여부, quality, resolution, camera parameter)를 나타내는 시그널링 정보, 뷰 신테사이즈(view synthesize)에 특화된 정보를 나타내는 시그널링 정보가 있을 수 있다.

텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지(Texture depth regeneration information SEI message semantics)를 통해 프레딕션 에러 프로세싱 및 타겟 뷰 프레딕션 프로세싱에 관련된 메타데이터가 시그널링될 수 있다.

텍스쳐 뎁스 리제너레이션 인포케이션은 뷰잉 포지션으로부터의 정보 또는 부분 영역 및 다른 뷰잉 포지션들의 픽쳐들로부터 유도된 뷰잉 포지션들을 위한 텍스쳐 및 뎁스 픽쳐들의 리제너레이션을 가능하게 하는 정보를 제공한다(The texture depth regeneration information SEI message provides information to enable regeneration of the texture and depth pictures for a viewing positions derived from pictures from other viewing positions and partial region or information from the viewing position.).

texture_depth_regeneration_info_id 는 뷰 리제너레이션의 목적을 식별하는데 사용되는 식별하는 넘버를 포함한다. 텍스쳐 뎁스 리제너레이션 인포 아이디의 값은 다른 수신기의 캐버빌리티 등을 서포트하기 위해서 이 SEI 메시지의 다른 유스 케이스를 나타내는데 사용될 수 있다(contains an identifying number that may be used to identify the purpose of view regeneration. The value of texture_depth_regeneration_info_id may be used to indicate the different use cases of this SEI message, to support different receiver capabilities, etc.).

하나 이상의 뷰 리제너레이션 인포메이션 SEI 메시지가 뷰 리제너레이션 인포 아이디의 같은 값과 함게 존재하는 경우, 이 뷰 리제너레이션 인포메이션 SEI 메시지의 컨텐츠는 같다. 뷰 리제너레이션 인포메이션 SEI 메시지가 존재하는 경우, 이때 뷰 리제너레이션 인포 아이디의 하나 이상의 값을 갖을 때 이 정보는 뷰 리제너레이션 인포 아이디의 다른 값들에 의해 나타내지는 정보임을 나타낸다. 또한, 다른 목적들, 다른 컴포넌트들, 예를 들어 텍스쳐, 뎁스 등을 위해서 제공되거나 또는 코렉션의 연속인 대안정보이다. 뷰 리제너레이션 인포 아이디의 값의 범위는 0부터 2의12승 마이너스 1 (포함)일 수 있다(When more than one view regeneration information SEI message is present with the same value of view_regeneration_info_id, the content of these view regeneration information SEI messages shall be the same. When view regeneration information SEI messages are present that have more than one value of view_regeneration_info_id, this may indicate that the information indicated by the different values of view_regeneration_info_id are alternatives that are provided for different purposes, for different component (such as texture, depth, etc) or that a cascading of correction. The value of view_regeneration_info_id shall be in the range of 0 to 2^12 - 1, inclusive. ).

texture_depth_regeneration_info_cancel_flag 이 1의 값인 경우 텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지가 커런트 레이어에 적용하는 아웃풋 오더 내 이전 텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지의 퍼시스턴스를 캔슬하는 것을 나타낸다. 이 값이 0을 갖는 경우 텍스쳐 뎁스 리제너레이션 인포메이션이 팔로우함을 나타낸다(equal to 1 indicates that the texture depth regeneration information SEI message cancels the persistence of any previous texture depth regeneration information SEI message in output order that applies to the current layer. texture_depth_regeneration_info_cancel_flag equal to 0 indicates that texture depth regeneration information follows.).

texture_depth_regeneration_info_persistence_flag 는 커런트 레이어를 위한 텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지의 퍼시스턴스를 설명한다.(specifies the persistence of the texture depth regeneration information SEI message for the current layer.).

텍스쳐 뎁스 뷰 리제너레이션 인포 퍼시스턴스 플래그가 0이면, 이는 텍스쳐 뎁스 리제너레이션 인포메이션이 커런트 디코딩된 픽쳐에만 적용됨을 나타낸다(texture_depth_view_regeneration_info_persistence_flag equal to 0 specifies that the texture depth regeneration information applies to the current decoded picture only).

픽쳐A가 커런트 픽쳐인 경우를 예로 설명하면 다음과 같다. 텍스쳐 뎁스 리제너레이션 인포 퍼시스턴스 플래그가 1이면, 텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지는 다음 컨디션들이 트루가 될때까지 아웃풋 오더로 커런트 레이어를 위해 계속된다.

- 커런트 레이어의 뉴 CLVS가 시작

- 비트스트림이 끝

- 커런트 레이어에 적용 가능한 텍스쳐 뎁스 리제너레이션 인포메이션 SEI 메시지를 포함하는 어세스 유닛의 커런트 레이어 내 픽쳐B가 출력되는데 PicOrderCnt( picB )가 PicOrderCnt( picA )보다 큰 경우. 여기서 PicOrderCnt( picB ) 및 PicOrderCnt( picA )는 각각 픽쳐A 및 픽쳐B의 PicOrderCntVal 값들이고, 픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인포케이션 이후 바로이다 (Let picA be the current picture. texture_depth_regeneration_info_persistence_flag to 1 specifies that the texture depth regeneration information SEI message persists for the current layer in output order until any of the following conditions are true:

- A new CLVS of the current layer begins.

- The bitstream ends.

- A picture picB in the current layer in an access unit containing a texture depth regeneration information SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

num_texture_depth_regeneration_minus1 는 SEI 메시지에 의해 리제너레이트되는 픽쳐들의 개수를 나타내는 시그널링 정보이다(plus 1 specifies the number of pictures which are to be regenerated by the SEI message. )

regenerated_view_id 는 리제너레이션 프로세스의 헤드 포지션 또는 뷰잉 포지션의 개수를 나타내는 시그널링 정보이다. 같은 SEI 메시지 또는 다른 SEI 메시지에서 설명되는 3DoF+의 뷰잉 포지션들의 개수를 식별하는 프리-디파인드된 정보 중의 하나이다(specifies the i-th identifying number of the viewing position or head position of the regeneration process. This value should be one of the pre-defined identifying number of a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_view_id specified in the multiview region-wise packing SEI message. )

view_location_x[ i ], view_location_y[ i ] and view_location_z[ i ] 는 2의 마이너스16승 밀리미터 단위의 뷰잉 포지션의 로케이션을 각각 나타낸다. 뷰 로케이션 X[i], 뷰 로케이션 y[i], 뷰 로케이션 z[i]의 범위는 -32 768 * 2^16 - 1 (i.e., -2 147 483 647)의 범위 내지 32 768 * 2^16 (i.e., 2 147 483 648)의 범위에 포함된다.(indicate the location of a viewing position in the units of 2^-16 millimeters, respectively. The range of view_location_x[ i ], view_location_y[ i ] and view_location_z[ i ] shall be in the range of -32 768 * 2^16 - 1 (i.e., -2 147 483 647) to 32 768 * 2^16 (i.e., 2 147 483 648), inclusive. )

view_rotation_yaw[ i ], view_rotation_pitch[ i ], and view_rotation_roll[ i ] 는 요, 피치, 밋 롤 로테이션 앵글을 각각 나타낸다. 이 정보는 로컬 코디네이트 축을 글로벌 코디네이트 축으로 컨버트하기 위해서 2의 마이너스16승 단위로, view_location_x[ i ], view_location_y[ i ] and view_location_z[ i ]에 관련된 뷰잉 포지션 헤드 포시젼의 스피어 유닛에 적용한다.(indicate the yaw, pitch, and roll rotation angles, respectively, that is applied to the unit sphere of a viewing posotion head position related to view_location_x[ i ], view_location_y[ i ] and view_location_z[ i ] to convert the local coordinate axes to the global coordinate axes, in units of 2^-16 degrees. The value of view_rotation_yaw[ i ] shall be in the range of -180 * 2^16 (i.e., -11 796 480) to 180 * 2^16 - 1 (i.e., 11 796 479), inclusive, the value of view_rotation_pitch[ i ] shall be in the range of -90 * 2^16 (i.e., -5 898 240) to 90 * 2^16 (i.e., 5 898 240), inclusive, and the value of view_rotation_roll[ i ] shall be in the range of -180 * 2^16 (i.e., -11 796 480) to 180 * 2^16 - 1 (i.e., 11 796 479), inclusive. view_rotation_yaw[ i ], view_rotation_pitch[ i ], and view_rotation_roll[ i ] could be used to indicate azimuth, elevation, and tilt, respectively. )

num_components[ i ] 는 i번째 뷰에 관련된 컴포넌트들의 개수를 나타낸다(specifies the number of the components that are related to the i-th view. )

regenerated_component_id[ i ][ j ] 는 리제너레이션 프로세스의 i번째 뷰잉 포지션의 j번재 컴포넌트 또는 헤드 포지션의 개수를 나타낸다(specifies the identifying number of the j-th component of the i-th viewing position or head position of the regeneration process. This value should be one of the pre-defined identifying number of a component that belongs to a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_component_id specified in the multiview region-wise packing SEI message.)

picture_width[ i ][ j ] and picture_height[ i ][ j ] 는 픽쳐 샘플 유닛에 대하여, 헤드 포지션 또는 i번째 뷰잉 포지션의 j번째 컴포넌트에 대응하여 리제너레이트된 픽쳐의 각 너비 및 높이를 나타낸다(specify the width and height, respectively, of the picture that is to be regenerated that is corresponding to the j-th component of the i-th viewing position or head position, in relative projected picture sample units. The values of picture_width and picture_height shall both be greater than 0.

projection_type[ i ][ j ] 는 360 스피어로부터 프로젝트된 픽쳐를 제너레이팅하는데 사용되는 프로젝션의 타입을 나타낸다( specifies the type of the projection used in generating the projected picture from a 360 sphere. ) 이 값이 0을 가지면, 프로젝션 타입이 언스페시파이드함을 나타낸다. 이 값이 1을 가지면 equirectangular projection 을 나타낸다. 이 값이 2를 가지면 cube map projection을 나타낸다. 이 값이 3 내지 15를 가지면 퓨쳐 유즈를 나타낸다.( projection_type[ i ][ j ] equal to 0 indicates the type of the projection is unspecified. projection_type[ i ][ j ] equal to 1 indicates the equirectangular projection. projection_type[ i ][ j ] equal to 2 indicates the cube map projection. projection_type[ i ][ j ] from 3 to 15, inclusive, are reserved for future use. )

component_type[ i ][ j ] 는 i번째 컴포넌트의 타입을 나타낸다(specifies the type of the i-th component. ) 이 값이 0을 가지면, 이 컴포넌트의 타입은 unspecified 이다. 이 값이 1을 가지면 a video or texture component 을 나타낸다. 이 값이 2를 가지면 depth map 을 나타낸다. 이 값이 3을 가지면, alpha channel 을 나타낸다. 픽셀의 값이 1이면, 대응하는 픽셀 로케이션에서 텍스쳐 픽쳐의 값이 트랜스패런트하지 않다. 픽셀의 값이 0 이면, 대응하는 픽셀 로케이션에서 텍스쳐 픽쳐의 값이 트랜스패런트하다. 이 값이 4를 가지면, 유저빌리티 인디케이션을 위한 인디케이션 맵을 나타낸다. 픽셀의 값이 1이면, 대응하는 픽셀 로케이션에서 텍스쳐 또는 뎁스 픽쳐의 값이 오클루션 인핸스먼트 프로세스를 위해 사용된다. 픽셀의 값이 1이면, 대응하는 픽셀 로케이션에서 텍스쳐 또는 뎁스 픽쳐의 값이 오클루션 인핸스먼트 프로세스를 위해 사용되지 않는다. 이 값이 5를 가지면, overlay 를 나타낸다. 이 값이 6 내지 15를 가지면 퓨처 유즈를 나타낸다( component_type[ i ][ j ] equal to 0 indicates the type of the component is unspecified. component_type[ i ][ j ] equal to 1 indicates the component is a video or texture component component_type[ i ][ j ] equal to 2 indicates the component is a depth map. component_type[ i ][ j ] equal to 3 indicates the component is an alpha channel. When the value of a pixel equals to 1, the value in a texture picture at the corresponding pixel location is not transparent. When the value of a pixel equals to 0, the value in a texture picture at the corresponding pixel location is transparent. component_type[ i ][ j ] equal to 4 indicates the component is an indication map for usability indication. When the value of a pixel equals to 1, the value in a texture or depth picture at the corresponding pixel location is used for occlusion enhancement process. When the value of a pixel equals to 1, the value in a texture or depth picture at the corresponding pixel location is not used for occlusion enhancement process. component_type[ i ][ j ] equal to 5 indicates the component is a overlay. component_type[ i ][ j ] from 6 to 15, inclusive, are reserved for future use. )

depth_near[ i ] and depth_far[ i ] 는 이미지 플레인으로부터 i번재 컴포넌트의 오브젝트에 대한 미니멈 및 맥시멈 디스턴스를 2의 마이너스16승 디그리 단위로 각각 나타낸다(specifies the minimum and maximum distances from the image plane to objects of the i-th component, in units of 2^-16 degrees, respectively.)

texture_depth_regeneration_info_flag[ i ] 이 1이면, i번째 컴포넌트의 텍스쳐 뎁스 리제너레이션 프로세스를 위한 정보를 나타낸다. 이 값이 0이면 i번째 컴포넌트의 텍스쳐 뎁스 리제너레이션 프로세스를 위한 정보가 제공되지 않음을 나타낸다(equal to 1 indicate that the information for texture depth regeneration process of the i-th component. texture_depth_regeneration_flag[ i ] equal to 0 indicate that the information for texture depth regeneration process of the i-th picture is not provided. )

reserved_zero_7bits[ i ] 이 0이고 리저브드 제로 7비트[i]를 위한 다른 값들이 퓨처 유즈를 위해 사용된다. 디코더들은 이 필드의 값을 무시할 수 있다(shall be equal to 0 and other values for reserved_zero_7bits[ i ] are reserved for future use. Decoders shall ignore the value of reserved_zero_7bits[ i ].)

merging_flag[ i ] 이 1이면 i번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 머징 모듈을 위한 정보가 이 SEI메시지에 있음을 나타낸다. 머징 플래그가 0이면 i번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 머징 모듈을 위한 정보가 이 SEI메시지에 없음을 나타낸다.(equal to 1 indicate the information for the merging module in the texture depth generation process of the i-th component is present in this SEI message. merging_flag[ i ] equal to 0 indicate the information for the merging module in the texture depth generation process of the i-th component is not present in this SEI message. )

hole_filling_flag[ i ] 이 1의 값을 가지는 경우, i번째 컴포넌트의 텍스트 뎁스 제너레이션 프로세스 내 홀 필링 모듈을 위한 정보가 이 SEI 메시지에 존재함을 나타낸다. 이 필드가 0의 값을 가지는 경우, 번째 컴포넌트의 텍스트 뎁스 제너레이션 프로세스 내 홀 필링 모듈을 위한 정보가 이 SEI 메시지에 존재하지 않음을 나타낸다(equal to 1 indicate the information for the hole filling module in the texture depth generation process of the i-th component is present in this SEI message. merging_flag[ i ] equal to 0 indicate the information for the hole filling module in the texture depth generation process of the i-th component is not present in this SEI message. )

crack_removal_flag[ i ] 이 1의 값을 가지는 경우, i번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 크랙 리무벌 모듈을 위한 정보가 이 SEI 메시지에 존재함을 나타낸다. 이 필드의 값이 0이면, 번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 크랙 리무벌 모듈을 위한 정보가 이 SEI 메시지에 존재하지 않음을 나타낸다(equal to 1 indicate the information for the crack removal module in the texture depth generation process of the i-th component is present in this SEI message. crack_removal_flag[ i ] equal to 0 indicate the information for the crack removal module in the texture depth generation process of the i-th component is not present in this SEI message. )

occlusion_enh_flag[ i ] 이 1의 값을 가지는 경우, i번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 오클루션 인핸스먼트 모듈을 위한 정보가 SEI 메시지에 존재함을 나타낸다. 이 필드의 값이 0이면, 번째 컴포넌트의 텍스쳐 뎁스 제너레이션 프로세스 내 오클루션 인핸스먼트 모듈을 위한 정보가 SEI 메시지에 존재하지 않음을 나타낸다(equal to 1 indicate the information for the occlusion enhancement module in the texture depth generation process of the i-th component is present in this SEI message. occlusion_enh_flag[ i ] equal to 0 indicate the information for the occlusion enhancement module in the texture depth generation process of the i-th component is not present in this SEI message. )

reserved_zero_4bits[ i ] 이 0이고, reserved_zero_4bits[ i ] 를 위한 다른 값들이 퓨처 유저를 위해 사용될 수 있다. 디코더들은 reserved_zero_4bits[ i ] 의 값을 무시할 수 있다(shall be equal to 0 and other values for reserved_zero_4bits[ i ] are reserved for future use. Decoders shall ignore the value of reserved_zero_4bits[ i ].)

num_ref_views_minus1[ i ] 플러스 1은 텍스쳐 뎁스 리제너레이션 프로세스를 위해 사용되는 레퍼런스 뷰들의 개수를 나타낸다(plus 1 specifies the number of reference views that are used for texture depth regeneration process. )

ref_view_id[ i ][ j ] i번째 컴포넌트을 에스티메이션하기 위해 (리제너레이션, 리컨스트럭션, 또는 프레딕션) 사용되는 j번째 레퍼런스 픽쳐의 뷰잉 포지션의 개수를 나타낸다. 이 값은 같은 또는 다른 SEI 메시지, 멀티뷰 리젼-와이즈 패킹 SEI 메시지에서 기술되는 mrwp_view_id 와 같은, 내 기술되는 3DoF+ 비디오의 뷰잉 포지션에 대한 프리-디파인된 식별 넘버 중 하나이다(specifies the identifying number of the viewing position of the j-th reference picture that is used to estimate (to regenerate, to reconstruct, or to predict) the i-th component. This value should be one of the pre-defined identifying number of a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_view_id specified in the multiview region-wise packing SEI message. )

ref_component_id[ i ][ j ] i번째 컴포넌트를 에스티메이션, 리제너레이트, 리컨스트럭션, 또는 프레딕션하는데 사용되는 레퍼런스 뷰잉 포지션 또는 헤드 포지션의 j번째 컴포넌트의 개수를 나타낸다(specifies the identifying number of the j-th component of a reference viewing position or head position that is used to estimate (to regenerate, to reconstruct, or to predict) the i-th component. This value should be one of the pre-defined identifying number of a component that belongs to a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_component_id specified in the multiview region-wise packing SEI message.)

hor_min_fov[ i ][ j ], hor_max_fov[ i ][ j ], ver_min_fov[ i ][ j ], and ver_max_fov[ i ][ j ] 는 2의 마이너스16승 디그리 단위로 i번째 컴포넌트를 에스티메이션(리제너레이트, 리컨스트럭션, 또는 프레딕션) 하는데 사용되는헤드 포지션 또는 레퍼런스 뷰잉 포지션의 j번째 컴포넌트의 호리젠탈 및 버티컬 FoV의 미니멈 및 맥시멈 범위를 각각 나타낸다(specifies the minimum and maximum ranges of the horizontal and vertical FoV of the j-th component of a reference viewing position or head position that is used to estimate (to regenerate, to reconstruct, or to predict) the i-th component, respectively, in the units of 2^-16 degrees. )

global_offset_x_axis[ i ][ j ], global_offset_y_axis[ i ][ j ], and global_offset_z_axis[ i ][ j ] 는 2의 마이너스16승 미터 단위로, x, y, z 축 방향으로, 리제너레이션될 뷰의 i번째 컴포넌트로부터 레퍼런스 뷰의 j번째 컴포넌트의 로케이션 간 오프셋을 나타낸다(specify the offset between the location of the j-th component of a reference view from the i-th component of a view to be regenerated, in the direction of the x, y, z-axis, in the units of 2^-16 meters. )

num_depth_levels_minus1[ i ][ j ] 플러스 1은 i번째 뷰의 리제너레이션을 위한 레퍼런스 뷰의 j번째 컴포텉느 내 뎁스 레벨의 개수를 나타낸다(plus 1 specifies the number of depth levels in the j-th component of the reference view for the regeneration of the i-th view. )

num_angular_levels_minus1[ i ][ j ][ k ] 플러스 1은 i번째 뷰의 리제너레이션을 위한 레퍼런스 뷰의 j번째 컴포넌트의 k번째 뎁스 레벨의 앵큘러를 제공하기 위한 앵귤러 레벨의 개수를 나타낸다(plus 1 specifies the number of anglular levels to provide angular of the k-th depth level of the j-th component of the reference view for the regeneration of the i-th view. )

weight_depth_level[ i ][ j ][ k ][ l ] i번째 컴포넌트의 j번째 레퍼런스 뷰를 에스티메이션(리제너레이션, 리컨스트럭션, 또는 프레딕션) 하는데 사용되는 레퍼런스 픽쳐의 k번째 뎁스 레벨의 l번째 앵귤러 리젼의 웨이트 팩터를 나타낸다. _depth_levels_minus1[ i ][ j ] and num_angular_levels_minus1[ i ][ j ][ k ] 의 값이 제로보다 큰 경우, 타겟 리젼의 픽셀 값들은 레퍼런스 픽쳐들의 리젼들 내 픽셀 로케이션에 대응하는 픽셀 값들의 웨이트된 민에 의해 계산된다. 여기서 k번재 레퍼런스 픽쳐를 위한 웨이트닝 값은 weight_depth_level [ i ][ j ][ k ]에 의해 주어진다. num_depth_levels_minus1[ i ][ j ] and num_angular_levels_minus1[ i ][ j ][ k ]의 값들이 0인 경우, 웨이트는 원과 같은 것으로 가정된다(specifies the weight factor of the l-th algular region of k-th depth level of a reference picture that is used to estimate (to regenerate, to reconstruct, or to predict) the j-th reference view for the i-th component. When the value of num_depth_levels_minus1[ i ][ j ] and num_angular_levels_minus1[ i ][ j ][ k ] are greater than zero, the pixel values of the target region is calculated by the weighted mean of the pixel values in the corresponding pixel location in the regions of the reference pictures, where the weighting value for the k-th reference picture is given by weight_depth_level [ i ][ j ][ k ]. When the values of num_depth_levels_minus1[ i ][ j ] and num_angular_levels_minus1[ i ][ j ][ k ] are equal to zero, the weight is assumed to be equal to one.)

hole_filling_process_type[ i ] 텍스쳐 뎁스 리제너레이션 프로세스를 위해 사용되는 홀 필링 필터의 타입을 나타낸다(specifies the type of hole filling filter used for the texture depth regeneration process. )

num_coeffs_minus1[ i ] 는 홀 필링 프로세스의 코이피션트들의 개수를 나타낸다(specifies the number of coefficients of the hole filling process. )

hole_filling_coeff[ i ][ j ] 는 2의 마이너스16승 단위로 필터 코이피션트의 값을 나타낸다. 이 필드의 값의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 2^16 (i.e., 2147483648) 내이다(포함)(specifies the value of the filter coefficient in the units of 2^-16. The value of hole_filling_coeff[ i ][ j ] shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

crack_removal_process_type[ i ] 텍스쳐 뎁스 리제너레이션 프로세스를 위해 사용되는 크랙 리무벌의 타입을 나타낸다(specifies the type of crack removal process used for the texture depth regeneration process. )

num_coeffs_minus1[ i ] 크랙 리무벌 프로세스의 코이피션트들의 개수를 나타낸다(specifies the number of coefficients of the crack removal process. )

crack_removal_process_coeff[ i ][ j ] 는 2의 마이너스16승 단위로 필터 코이피션트의 값을 나타낸다. 이 필드의 값의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 32768 * 2^16 (i.e., 2147483648) (포함)이다(specifies the value of the filter coefficient in the units of 2^-16. The value of crack_removal_process_coeff[ i ][ j ] shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

num_patched_blocks[ i ] i번째 컴포넌트의 뷰 리제너레이션을 위해 사용되는 패치들의 개수를 나타낸다(specifies the number of patches which are to be used for the view regeneration of the i-th component. )

regenerated_picture_top_left_index_x[ i ][ j ], regenerated_picture_top_left_index_y[ i ][ j ], regenerated_picture_bottom_right_index_x[ i ][ j ], and regenerated_picture_bottom_right_index_y[ i ][ j ] 는 리제너레이트된 픽쳐의 i번째 컴포넌트의 j번째 블록의 탑-레프트 및 보틈-롸이트 코너의 (x.y) 픽셀 로케이션을 루마 샘플들 단위로 나타낸다. regenerated_picture_top_left_index_x[ i ][ j ], regenerated_picture_top_left_index_y[ i ][ j ], regenerated_picture_bottom_right_index_x[ i ][ j ], and regenerated_picture_bottom_right_index_y[ i ][ j ] 의 값들은 0 내지 65 535(포함)의 범위를 가진다(specifies the (x, y) pixel location of the top-left and bottom-right corner of the j-th block of the i-th component of regenerated picture, in the units of luma samples. The values of regenerated_picture_top_left_index_x[ i ][ j ], regenerated_picture_top_left_index_y[ i ][ j ], regenerated_picture_bottom_right_index_x[ i ][ j ], and regenerated_picture_bottom_right_index_y[ i ][ j ] shall be in the range of 0 to 65 535, inclusive.)

patch_view_id 리제너레이션 프로세스의 헤드 포지션 또는 뷰잉 포니션의 i번째 식별 넘버를 나타낸다. 이 값은 같은 또는 다른 SEI 메시지 내 기술되는 3DoF+ 비디오의 뷰잉 포지션들의 프리-디파인된 식별 넘버 중 하나이다. (예를 들어, 멀티뷰 리젼-와이즈 패킹 SEI 메시지 내 기술되는 mrwp_view_id )(specifies the i-th identifying number of the viewing position or head position of the regeneration process. This value should be one of the pre-defined identifying number of a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_view_id specified in the multiview region-wise packing SEI message. )

patch_component_id 는 리제너레이션 프로세스의 헤드 포지션 또는 뷰잉 포지션의 컴포넌트의 i번째 식별 넘버를 나타낸다. 이 값은 멀티뷰 리젼-와이즈 패킹 SEI 메시지에 기술되는 mrwp_component_id 와 같이, 같은 또는 다른 SEI 메시지에 기술되는 3DoF+ 비디오의 뷰잉 포지션들에 속하는 컴포넌트의 프리-디파인된 식별 넘버 중 하나이다(specifies the i-th identifying number of a component of a viewing position or head position of the regeneration process. This value should be one of the pre-defined identifying number of a component that belongs to a viewing positions of a 3DoF+ video specified in the same or in the other SEI message, such as mrwp_component_id specified in the multiview region-wise packing SEI message.)

patch_top_left_index_x[ i ][ j ], patch_top_left_index_y[ i ][ j ], patch_bottom_right_index_x[ i ][ j ], and patch_bottom_right_index_y[ i ][ j ] 는 루마 샘플들 단위로 i번째 컴포넌트를 위한 j번째 패치 블록의 탑-레프트 및 보틈-롸이트 코너의 (x,y) 픽셀 로케이션을 나타낸다. patch_top_left_index_x[ i ][ j ], patch_top_left_index_y[ i ][ j ], patch_bottom_right_index_x[ i ][ j ], and patch_bottom_right_index_y[ i ][ j ] 의 값은 0 to 65 535의 범위(포함)를 갖는다(specifies the (x, y) pixel location of the top-left and bottom-right corner of the j-th patch block for the i-th component, in the units of luma samples. The values of patch_top_left_index_x[ i ][ j ], patch_top_left_index_y[ i ][ j ], patch_bottom_right_index_x[ i ][ j ], and patch_bottom_right_index_y[ i ][ j ] shall be in the range of 0 to 65 535, inclusive.)

패치 패킹에 관련된 메타데이터는, 예를 들어, 멀티뷰 리젼-와이즈 패킹 SEI 메시지에 포함될 수 있다.

멀티뷰 리젼-와이즈 패킹 SEI 메시지는 가드 밴드들의 사이즈 및 로케이션에 대한 정보뿐만 아니라, 프로젝트된 픽쳐들 상 크랍되고 디코딩된 픽쳐들의 컬러 샘플들의 리맴핑을 가능하게 하는 정보를 제공한다(The multiview region-wise packing SEI message provides information to enable remapping of the colour samples of the cropped decoded pictures onto projected pictures as well as information on the location and size of the guard bands, if any.)

multiview_regionwise_packing_id 는 멀티뷰 리젼-와이즈 패킹의 목적을 식별하는데 사용되는 식별 넘버를 포함한다. multiview_regionwise_packing_id 의 값은 다른 리시버 캐퍼빌리티를 서포트하기 위해서 또는 파노라마 이미지, 멀티뷰 이미지, 또는 멀티-뷰포인트 이미지, 스피어 이미지 등을 컨스트럭션하는데 사용될 수 있는 서브-픽쳐들을 나타내기 위해서, 이 SEI 메시지의 다른 유즈 케이스들을 식별하는데 사용될 수 있다(contains an identifying number that may be used to identify the purpose of the multiview region-wise packing. The value of multiview_regionwise_packing_id may be used to indicate the different use cases of this SEI message, to support different receiver capabilities, or to indicate sub-pictures which could be used to construct sphere image, panoramic image, multiview image, or multi-viewpoint image, etc.)

하나 이상의 멀티뷰 리젼-와이즈 패킹 SEI 메시지가 multiview_regionwise_packing_id 와 같은 값을 가지고 존재하는 경우, 이 멀티뷰 리젼와이즈 패킹 SEI 메시지의 컨텐츠는 같다. 멀티뷰 리젼와이즈 패킹 SEI 메시지가 multiview_regionwise_packing_id의 값을 하나 이상 갖는 경우, 이는 multiview_regionwise_packing_id 에 다른 값들에 의해 나타내지는 정보가 코렉션 또는 프로젝션의 케스케이딩이 시퀀셜 오더 순(어플리케이션에 따라서 오더는 기술될 수 있음)으로 적용되거나 다른 목적들을 위해 사용되는 얼터니브들임을 나타낸다. multiview_regionwise_packing_id 의 값의 범위는 0 내지 2의 12승 마이너스 1(포함)를 가진다(When more than one multiview region-wise packing SEI message is present with the same value of multiview_regionwise_packing_id, the content of these multiview regionwise packing SEI messages shall be the same. When multiview regionwise packing SEI messages are present that have more than one value of multiview_regionwise_packing_id, this may indicate that the information indicated by the different values of multiview_regionwise_packing_id are alternatives that are provided for different purposes or that a cascading of correction or projection is to be applied in a sequential order (an order might be specified depending on the application). The value of multiview_regionwise_packing_id shall be in the range of 0 to 2^12 - 1, inclusive. )

multiview_regionwise_packing_cancel_flag 이 1의 값을 가지면, 멀티뷰 리젼-와이즈 패킹 SEI 메시지가 커런트 레이어에 적용되는 아웃풋 오더 내 이전 멀티뷰 리젼-와이즈 패킹 SEI 메시지의 퍼시스턴스를 캔슬하는 것을 나타낸다. Multiview_regionwise_packing_cancel_flag 가 0이면 멀티뷰 리젼-와이즈 패킹 정보가 팔로우함을 나타낸다(equal to 1 indicates that the multiview region-wise packing SEI message cancels the persistence of any previous multiview region-wise packing SEI message in output order that applies to the current layer. Multiview_regionwise_packing_cancel_flag equal to 0 indicates that multiview region-wise packing information follows. )

multiview_regionwise_packing_persistence_flag 는 커런트 레이어를 위한 멀티뷰 리젼-와이즈 패킹 SEI 메시지의 퍼시스턴스를 나타낸다. multiview_regionwise_packing_persistence_flag 가 0이면 카레라 렌즈 인포메이션이 커런트 디코딩된 픽쳐에만 적용되는 것을 나타낸다. 픽쳐A가 커런트 픽쳐인 경우를 가정하면, multiview_regionwise_packing_persistence_flag 가 1이면, 멀티뷰 리젼-와이즈 패킹 SEI 메시지가 다음 조건들이 트루일 때까지 아웃풋 오더 순으로 커런트 레이어를 위해 퍼시스트한다: 커런트 레이어의 뉴 CLVS가 시작하는 경우, 비트스트림이 종료된 경우, 커런트 레이어에 적용가능한 어세스 유닛 내에서 멀티뷰 리젼-와이즈 패킹 SEI 메시지를 포함하는 어세스 유닛 내 커런트 레이어 내 픽쳐B가 PicOrderCnt( picB ) 가 PicOrderCnt( picA )보다 크게 아웃풋되는 경우, 여기서 PicOrderCnt( picB ) and PicOrderCnt( picA )는 픽쳐A 및 픽쳐B의 각 PicOrderCntVal 값이다(픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인포케이션 이후 즉시)((specifies the persistence of the multiview region-wise packing SEI message for the current layer. multiview_regionwise_packing_persistence_flag equal to 0 specifies that the camera lens information applies to the current decoded picture only. Let picA be the current picture. multiview_regionwise_packing_persistence_flag to 1 specifies that the multiview region-wise packing SEI message persists for the current layer in output order until any of the following conditions are true: A new CLVS of the current layer begins. The bitstream ends. A picture picB in the current layer in an access unit containing a multiview region-wise packing SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

constituent_picture_matching_flag 이 1이면, 이 SEI 메시지 내 프로젝트된 리젼 인포메이션, 패킹된 리젼 인포케이션, 및 가드 밴드 리젼 인포메이션이 각각 각 컨스티튜언트 픽쳐에 적용되고, 패킹된 픽쳐 및 프로젝트왼 픽쳐는 frame packing arrangement SEI message 에 의해 인디케이팅되는 같은 스테레오스코픽 프레임 패킹 포맷을 가진다. constituent_picture_matching_flag 이 0이면, 이 SEI 메시지 내 프로젝트된 리젼 인포메이션, 패킹된 리젼 인포메이션, 및 가드 밴드 리젼 인포메이션은 프로젝트된 픽쳐에 적용된다. StereoFlag이 0이거나 또는 1이고 및 frame_packing_arrangement_type이 5이면, constituent_picture_matching_flag의 값은 0이다(equal to 1 specifies that the projected region information, packed region information, and guard band region information in this SEI message apply individually to each constituent picture and that the packed picture and the projected picture have the same stereoscopic frame packing format indicated by the frame packing arrangement SEI message. constituent_picture_matching_flag equal to 0 specifies that the projected region information, packed region information, and guard band region information in this SEI message apply to the projected picture. When StereoFlag is equal to 0, or StereoFlag is equal to 1 and frame_packing_arrangement_type is equal to 5, the value of constituent_picture_matching_flag shall be equal to 0.)

packing_format_matching_between_views_flag 이 1이면, 프로젝션 포맷이 mrwp_projection_type에 의해 인디케이팅되는 헤드 포지션 또는 뷰잉 포지션 마다 같은 패밍 포맷을 패킹된 픽쳐가 가지는 것을 나타낸다. packing_format_matching_between_views_flag이 0이면 다른 프로젝션 타입이 각 뷰잉 포지션에 대해 사용되는 것을 나타낸다(equal to 1 specifies that the packed picture have the same packing format per viewing position or head position where the projection format is indicated by mrwp_projection_type. packing_format_matching_between_views_flag equal to 0 specifies that the different projection format is used for each viewing position. )

num_view_minus1 플러스 1은 SEI 메시지 내 컨시더되는 뷰 또는 헤드 포지션의 개수를 나타낸다(plus 1 specifies the number of view or head position considered in the SEI message. )

mrwp_view_id 뷰 또는 헤드 포지션을 식별하는데 사용되는 식별 넘버를 포함한다. mrwp_view_id[ i ]의 값은 i번째 뷰 또는 헤드 포지션을 인디케이팅하는데 사용될 수 있다. mrwp_view_id[ i ]는 특정 목적을 위한 하나 또는 멀티플 리젼들을 인디케이팅하는데 사용될 수 있다. 예를 들어, 헤드 모션 패럴렉스에 따른 헤드 로케이션에 대응하는 서브-픽쳐들의 인디케이션, 헤드 로케이션의 바이노큘러 디스패리티를 서포팅하는 서브-픽쳐 페어의 인디케이션 등을 나타낼 수 있다(contains an identifying number that may be used to identify the view or head position. The value of mrwp_view_id[ i ] may be used to indicate the i-th view or head position. mrwp_view_id[ i ] could be used to indicate one or multiple regions for specific purposes, e.g., indication of sub-pictures corresponding to a head location that causes head motion parallax, or indication of sub-picture pair supporting binocular disparity of a head location, etc.)

mrwp_anchor_view_flag 이 1이면, i번째 뷰 또는 i번재 mrwp_view_id 를 갖는 헤드 포지션이 앵커(또는 센터 또는 레프리젠테이티브) 뷰 또는 헤드 포지션임을 나타낸다. mrwp_anchor_view_flag이 0이면 i번째 뷰 또는 헤드 포지션이 퍼리퍼럴 뷰 또는 헤드 포지션임을 나타낸다(equal to 1 indicate that the i-th view or head position with the i-th mrwp_view_id is the anchor (or center or representative) view or head position. mrwp_anchor_view_flag equal to 0 indicate that the i-th view or head position is periperal view or head position. )

mrwp_view_independent_rotation_flag 이 1이면 i번째 뷰 또는 헤드 포지션의 로테이션이 센터 또는 앵커 뷰 또는 헤드 포지션의 로테이션과 다름을 나타낸다. mrwp_view_independent_rotation_flag 이 0이면, i번째 뷰 또는 헤드 포지션의 로테이션이 센터 또는 앵커 뷰 또는 헤드 포지션의 로테이션과 같음을 나타낸다(equal to 1 indicate that the rotation of the i-th view or head position is different from the rotation of the center or anchor view or head position. mrwp_view_independent_rotation_flag equal to 0 indicate that the rotation of the i-th view or head position is identical to the rotation of the center or anchor view or head position. )

mrwp_all_components_in_one_packedregion_flag 이 1이면 i번째 뷰 또는 헤드 포지션에 대응하는 프로젝트된 픽쳐가 렉탱귤러 리젼 내 익스클루시브하게 패킹되는 것을 나타낸다. mrwp_exclusive_packing_flag이 0이면, i번째 뷰 또는 헤드 포지션에 대응하는 패킹된 픽쳐가 렉탱귤러 리젼 내 패킹되지 않음을 나타낸다(equal to 1 indicate that the packed regions that consist the projected picture corresponds to the i-th view or head position are packed exclusively in a rectangular region. mrwp_exclusive_packing_flag equal to 0 indicate that the packed regions that corresponds to the i-th view or head position are not packed within a rectangular region. )

mrwp_reserved_zero_5bits 이 0이고, mrwp_reserved_zero_5bits[ i ]를 위한 다른 값들이 퓨처 유즈를 위해 예약된다. 디코더들은 mrwp_reserved_zero_5bits[ i ]의 값을 무시할 수 있다(shall be equal to 0 and other values for mrwp_reserved_zero_5bits[ i ] are reserved for future use. Decoders shall ignore the value of mrwp_reserved_zero_5bits[ i ].)

mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ] and mrwp_location_anchor_view_z[ i ] 는 mrwp_view_id[ i ]에 관련된 헤드 포지션의 로케이션을 2의 마이너스16승 밀리미터들 단위로 나타낸다. mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ] and mrwp_location_anchor_view_z[ i ]의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지32768 * 2^16 (i.e., 2147483648)(포함)의 범위에 존재한다(indicate the location of head position related to mrwp_view_id[ i ] in the units of 2^-16 millimeters. The range of mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ] and mrwp_location_anchor_view_z[ i ] shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

mrwp_rotation_anchor_view_yaw[ i ], mrwp_rotation_anchor_view_pitch[ i ], and mrwp_rotation_anchor_view_roll[ i ] 는 요, 피치, 및 롤 로테이션 앵글들을 각각 나타낸다. 이는mrwp_view_id[ i ], mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ], and mrwp_location_anchor_view_z[ i ]에 관련된 헤드 포지션의 유닛 스피어에 로컬 코디네이트 축을 글로벌 코디네이트 축으로 2의 마이너스16승 디그리들 단위로 컨버트하기 위해서 적용된다. mrwp_rotation_anchor_view_yaw[ i ]의 범위는 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479)(포함)에 해당한다. mrwp_rotation_anchor_view_pitch[ i ]의 값은 -90 * 2^16 (i.e., -5898240) 내지90 * 2^16 (i.e., 5898240)(포함)의 범위를 가진다. mrwp_rotation_anchor_view_roll[ i ]의 값은 -180 * 2^16 (i.e., -11796480) 내지 180 * 2^16 - 1 (i.e., 11796479)(포함)의 범위를 가진다. mrwp_rotation_anchor_view_yaw[ i ], mrwp_rotation_anchor_view_pitch[ i ], and mrwp_rotation_anchor_view _roll[ i ]는 아지무스, 엘리베이션, 및 틸트를 각 인티케이션하는데 사용될 수 있다(indicate the yaw, pitch, and roll rotation angles, respectively, that is applied to the unit sphere of head position related to mrwp_view_id[ i ], mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ], and mrwp_location_anchor_view_z[ i ] to convert the local coordinate axes to the global coordinate axes, in units of 2^-16 degrees. The value of mrwp_rotation_anchor_view_yaw[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of mrwp_rotation_anchor_view_pitch[ i ] shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of mrwp_rotation_anchor_view_roll[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. mrwp_rotation_anchor_view_yaw[ i ], mrwp_rotation_anchor_view_pitch[ i ], and mrwp_rotation_anchor_view _roll[ i ] could be used to indicate azimuth, elevation, and tilt, respectively. )

mrwp_location_diff_x[ i ], mrwp_location_diff_y[ i ] and mrwp_location_diff_z[ i ] 는 2의 마이너스16승 밀리미터들 단위로 앵커 뷰의 뷰 또는 헤드 포지션의 로케이션에 관련된 i번째 뷰 또는 헤드 포지션의 로케이션을 나타낸다. i번째 뷰의 (x,y,z) 로케이션은 mrwp_location_anchor_view_x[ i ] and mrwp_location_diff_x[ i ], mrwp_location_anchor_view_y[ i ] and mrwp_location_diff_y[ i ], and mrwp_location_anchor_view_z[ i ] and mrwp_location_diff_z[ i ]을 각각 애딩함으로써 계산될 수 있다. mrwp_location_diff_x[ i ], mrwp_location_diff_y[ i ] and mrwp_location_diff_z[ i ]의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648)(포함)의 범위에 해당한다(indicate the location of the i-th view or head position relative to the location of the view or head position of the anchor view in the units of 2^-16 millimeters. The (x,y,z) location of the i-th view could be calculated by adding mrwp_location_anchor_view_x[ i ] and mrwp_location_diff_x[ i ], mrwp_location_anchor_view_y[ i ] and mrwp_location_diff_y[ i ], and mrwp_location_anchor_view_z[ i ] and mrwp_location_diff_z[ i ], respectively. The range of mrwp_location_diff_x[ i ], mrwp_location_diff_y[ i ] and mrwp_location_diff_z[ i ] shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

mrwp_rotation_diff_yaw[ i ], mrwp_rotation_diff_pitch[ i ], and mrwp_rotation_diff_roll[ i ] 는 2의 마이너스16승 디그리들의 단위로 앵커 뷰에 관련하여 i번째 뷰의 요, 피치, 및 롤 로테이션 앵글을 각각 나타낸다. 글로벌 코디네이트에 관련하여 i번재 뷰의 요, 피치, 및 롤 로테이션 앵글들은 mrwp_rotation_diff_yaw[ i ] and mrwp_rotation_anchor_view_yaw[ i ] , mrwp_rotation_diff_pitch[ i ] and mrwp_rotation_anchor_view_pitch[ i ], and mrwp_rotation_diff_roll[ i ] and mrwp_rotation_anchor_view_roll[ i ]을 각각 애딩함으로써 계산될 수 있다. 이는 mrwp_view_id[ i ], mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ], and mrwp_location_anchor_view_z[ i ]에 관련된 헤드 포지션의 유닛 스피어에 로컬 코디네이트 축을 글로벌 코디네이트 축으로 컨버트하기 위해서 적용될 수 있다(indicate the yaw, pitch, and roll rotation angle of the i-th view relative to the anchor view in units of 2^-16 degrees, respectively. The yaw, pitch, and roll rotation angles of the i-th view relative to the global coordinate could be calculated by adding mrwp_rotation_diff_yaw[ i ] and mrwp_rotation_anchor_view_yaw[ i ] , mrwp_rotation_diff_pitch[ i ] and mrwp_rotation_anchor_view_pitch[ i ], and mrwp_rotation_diff_roll[ i ] and mrwp_rotation_anchor_view_roll[ i ], respectively. They are applied to the unit sphere of head position related to mrwp_view_id[ i ], mrwp_location_anchor_view_x[ i ], mrwp_location_anchor_view_y[ i ], and mrwp_location_anchor_view_z[ i ] to convert the local coordinate axes to the global coordinate axes. )

mrwp_rotation_diff_yaw[ i ]의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479)(포함)의 범위를 가진다. camera_rotation_diff_pitch[ i ]의 값은 -90 * 2^16 (i.e., -5898240) 내지 90 * 2^16 (i.e., 5898240)(포함)의 범위를 가진다. mrwp_rotation_diff_roll[ i ]의 값은 -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479)(포함)의 범위를 가진다. mrwp_rotation_diff_yaw[ i ], mrwp_rotation_diff_pitch[ i ], and mrwp_rotation_diff_roll[ i ]은 아지무스, 엘리베이션, 및 틸트 각각을 인디케이션하는데 사용될 수 있다(The value of mrwp_rotation_diff_yaw[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of camera_rotation_diff_pitch[ i ] shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of mrwp_rotation_diff_roll[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. mrwp_rotation_diff_yaw[ i ], mrwp_rotation_diff_pitch[ i ], and mrwp_rotation_diff_roll[ i ] could be used to indicate azimuth, elevation, and tilt, respectively. )

num_component_minus1[ i ] 플러스 1은 SEI 메시지 내 고려되는 i번째 뷰 내 컴포넌트들의 개수를 나타낸다(plus 1 specifies the number of components in the i-th view considered in the SEI message. )

mrwp_component_id[ i ][ j ] 는 i번째 뷰의 j번째 컴포넌트를 식별하는 사용되는 식별 넘버를 나타낸다(specifies an identifying number that may be used to identify the j-th component of the i-th view. )

mrwp_component_type[ i ][ j ] 는 i번째 뷰의 j번째 컴포넌트의 타입을 나타낸다(specifies the type of the j-th component of the i-th view. ) mrwp_component_type[ i ][ j ]이 0이면 컴포넌트의 타입은 unspecified이다. mrwp_component_type[ i ][ j ]이 1이면 컴포넌트의 타입은 video component이다. mrwp_component_type[ i ][ j ]이 2이면 컴포넌트의 타입은 depth map이다. mrwp_component_type[ i ][ j ]이 3이면 컴포넌트의 타입은 alpha channel이다. mrwp_component_type[ i ][ j ]이 4이면 컴포넌트의 타입은 left-eye-view 의 video component 이다. mrwp_component_type[ i ][ j ]이 5이면 right-eye-view의 video component 이다. mrwp_component_type[ i ][ j ]이 6이면 컴포넌트의 타입은 both-eye-view의 video component 이다. mrwp_component_type[ i ][ j ]이 7이면 컴포넌트의 타입은 left-eye-view 의 residual video component 이다. mrwp_component_type[ i ][ j ]이8이면 컴포넌트의 타입은 right-eye-view의 residual video component 이다. mrwp_component_type[ i ][ j ]이 9이면 컴포넌트의 타입은 both-eye-view의 residual video component 이다. mrwp_component_type[ i ][ j ]이 10 내지 15이면 컴포넌트의 타입은 퓨처 유스이다( mrwp_component_type[ i ][ j ] equal to 0 indicates the type of the component is unspecified. mrwp_component_type[ i ][ j ] equal to 1 indicates the component is a video component mrwp_component_type[ i ][ j ] equal to 2 indicates the component is a depth map. mrwp_component_type[ i ][ j ] equal to 3 indicates the component is an alpha channel. mrwp_component_type[ i ][ j ] equal to 4 indicates the component is a video component of the left-eye-view. mrwp_component_type[ i ][ j ] equal to 5 indicates the component is a video component of the right-eye-view. mrwp_component_type[ i ][ j ] equal to 6 indicates the component is a video component of both-eye-view. mrwp_component_type[ i ][ j ] equal to 7 indicates the component is a residual video component of the left-eye-view. mrwp_component_type[ i ][ j ] equal to 8 indicates the component is a residual video component of the right-eye-view. mrwp_component_type[ i ][ j ] equal to 9 indicates the component is a residual video component of both-eye-view. mrwp_component_type[ i ][ j ] from 10 to 15, inclusive, are reserved for future use. )

mrwp_projection_type[ i ][ j ] 는 360 스피어로부터 프로젝트된 픽쳐를 제너레이팅하는 과정에 사용되는 프로젝션의 타입을 나타낸다. mrwp_projection_type[ i ][ j ]이 0이면 프로젝션 타입은 unspecified 이다. mrwp_projection_type[ i ][ j ]이 1이면 프로젝션 타입은 equirectangular projection 이다. mrwp_projection_type[ i ][ j ]이 2이면 프로젝션 타입은 cube map projection 이다. mrwp_projection_type[ i ][ j ]이 3내지 15(포함)이면 프로젝션 타입은 퓨처 유즈이다(specifies the type of the projection used in generating the projected picture from a 360 sphere. mrwp_projection_type[ i ][ j ] equal to 0 indicates the type of the projection is unspecified. mrwp_projection_type[ i ][ j ] equal to 1 indicates the equirectangular projection. mrwp_projection_type[ i ][ j ] equal to 2 indicates the cube map projection. mrwp_projection_type[ i ][ j ] from 3 to 15, inclusive, are reserved for future use. )

mrwp_proj_picture_width[ i ][ j ] and mrwp_proj_picture_height[ i ][ j ] 프로젝트된 픽쳐 샘플 유닛들에 대한 i번재 프로젝트된 픽쳐의 j번째 컴포넌트의 너비 및 높이를 각각 나타낸다. mrwp_proj_picture_width and mrwp_proj_picture_height의 값은 0보다 크다(specify the width and height, respectively, of the j-th component of the i-th projected picture, in relative projected picture sample units. The values of mrwp_proj_picture_width and mrwp_proj_picture_height shall both be greater than 0.)

mrwp_coverage_horizontal[ i ][ j ] and mrwp_coverage_vertical[ i ][ j ] 2의 마이너스16승 디그리 단위로, i번째 뷰의 j번째 컴포넌트 또는 헤드 포지션의 커버리지의 호리즌탈 및 버티칼 범위를 나타낸다(specifies the horizontal and vertical ranges of the coverage of the j-th component of the i-th view or head position, in units of 2^-16 degrees, respectively. )

depth_near[ i ][ j ] and depth_far[ i ][ j ] 은 각각 2의 마이너스16승 디그리 단위로 이미지 플레인 로부터 헤드 포지션 또는 i번째 뷰의 j번째 컴포넌트의 오프젝트 간 미니멈 및 맥시멈 디스턴스를 나타낸다(specifies the minimum and maximum distances from the image plane to objects of the j-th component of the i-th view or head position, in units of 2^-16 degrees, respectively.)

mrwp_rotation_component_diff_yaw[ i ][ j ], mrwp_rotation_component_diff_pitch[ i ][ j ], mrwp_rotation_component_diff_roll[ i ][ j ] 은 각각 2의 마이너스16승 디그리 단위로 i번째 뷰의 레퍼런스 로테이션 앵글에 대한 i번째 뷰의 j번째 컴포넌트의 요, 피치, 및 롤 로테이션 앵글 디퍼런스를 나타낸다. 글로벌 코디네이트에 대한 i번재 뷰의 j번째 컴포넌트의 요, 피치, 및 롤 로테이션 앵글은 각 디퍼런스 값들을 레퍼런스 로테이션 앵글들에 각각 애딩함으로써 계산될 수 있다(indicate the yaw, pitch, and roll rotation angle difference of the j-th component of the i-th view relative to the reference rotation angle of the i-th view in units of 2^-16 degrees, respectively. The yaw, pitch, and roll rotation angles of the j-th component of the i-th view relative to the global coordinate could be calculated by adding each difference values and the reference rotation angles, respectively. ) mrwp_rotation_component_diff_yaw[ i ] 의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479)(포함)의 범위를 가진다. camera_rotation_component_diff_pitch[ i ]의 값은 -90 * 2^16 (i.e., -5898240) 내지 90 * 2^16 (i.e., 5898240)(포함)의 범위를 가진다. mrwp_rotation_component_diff_roll[ i ]의 값은 -180 * 2^16 (i.e., -11796480) 내지 180 * 2^16 - 1 (i.e., 11796479)(포함)의 범위를 가진다. mrwp_rotation_component_diff_yaw[ i ], mrwp_rotation_component_diff_pitch[ i ], and mrwp_rotation_component_diff_roll[ i ]은 각각 아지무스, 엘리베이션, 틸트를 인디케이팅하는데 사용될 수 있다(The value of mrwp_rotation_component_diff_yaw[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of camera_rotation_component_diff_pitch[ i ] shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of mrwp_rotation_component_diff_roll[ i ] shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. mrwp_rotation_component_diff_yaw[ i ], mrwp_rotation_component_diff_pitch[ i ], and mrwp_rotation_component_diff_roll[ i ] could be used to indicate azimuth, elevation, and tilt, respectively. )

mrwp_packed_region_width[ i ][ j ], mrwp_packed_region_height[ i ][ j ], mrwp_packed_region_top[ i ][ j ] and mrwp_packed_region_left[ i ][ j ]

은 각각 패킹된 픽쳐 내( constituent_picture_matching_flag이 0일 때) 또는 패킹된 픽쳐의 컨스티튜언트 픽쳐 내(constituent_picture_matching_flag이 1일 때) 패킹된 픽쳐 샘플 유닛들에 대한 i번재 프로젝트된 리젼의 j번째 컴포넌트의 너비, 높이, 탐 샘플 로우, 및 레프트-모스트 샘플 컬럼을 나타낸다( specify the width, height, top sample row, and the left-most sample column, respectively, of the j-th component of the i-th projected region in relative packed picture sample units., either within the packed picture (when constituent_picture_matching_flag is equal to 0) or within the constituent picture of the packed picture (when constituent_picture_matching_flag is equal to 1).)

num_packed_regions 는 constituent_picture_matching_flag이 0인 경우 패킹된 리젼들의 개수를 나타낸다. num_packed_regions의 값은 0보다 크다. constituent_picture_matching_flag이 1인 경우, 패킹된 리젼들의 토탈 개수는 num_packed_regions *2와 같다. 그리고 num_packed_regions의 루프 엔트리들의 각 엔트리 내 정보는 프로젝트된 픽쳐 및 패킹된 픽쳐의 각 컨스티튜언트 픽쳐에 적용된다(specifies the number of packed regions when constituent_picture_matching_flag is equal to 0. The value of num_packed_regions shall be greater than 0. When constituent_picture_matching_flag is equal to 1, the total number of packed regions is equal to num_packed_regions * 2, and the information in each entry of the loop of num_packed_regions entries applies to each constituent picture of the projected picture and the packed picture.)

packed_picture_width and packed_picture_height 패킹된 픽쳐 샘플 유닛들 대한 패킹된 픽쳐의 각 너비 및 높이를 나타낸다. packed_picture_width 및packed_picture_height의 값은 0보다 크다. packed_picture_width 및packed_picture_height는 packed_picture_width이 cropPicWidth의 인티저 멀티플이고, packed_picture_height이 cropPicHeight의 인티저 멀티플인 값들은 갖는 비트스트림 컴포먼스의 요구사항이다. 여기서, cropPicWidth 및cropPicHeight은 각각 크롭 디코딩된 픽쳐의 너비 및 높이이다(specify the width and height, respectively, of the packed picture, in relative packed picture sample units. The values of packed_picture_width and packed_picture_height shall both be greater than 0. It is a requirement of bitstream conformance that packed_picture_width and packed_picture_height shall have such values that packed_picture_width is an integer multiple of cropPicWidth and packed_picture_height is an integer multiple of cropPicHeight, where cropPicWidth and cropPicHeight are the width and height, respectively, of the cropped decoded picture.)

num_view_id_minus1[ i ] 플러스 1은 i번째 패킹된 리젼들을 디스크라이빙하는 뷰 인디케이터들의 개수를 나타낸다. num_view_id_minus1[ i ]은 1보다 크고, i번째 패킹된 리젼이 다른 뷰들과 공유되는 것을 나타낸다(plus 1 specifies the number of view indicators describing the i-th packed region. num_view_id_minus1[ i ] greater than 1 could represent that the i-th packed region is shared with the different views. )

view_idx[ i ][ j ] i번째 패킹된 리젼에 관한 퓨 인포메이션 및 프로젝트된 픽쳐 인포메이션을 기술하는 j번재 뷰 인디케이터를 나타낸다. view_idx[ i ][ j ]의 값은 커런트 SEI메시지에 정의된 mrwp_view_id의 값들 중 하나와 매치될 수 있다(specifies the j-th view indicator which describes the view information and projected picture information with regard to the i-th packed region. The value of view_idx[ i ][ j ] shall be match with one of the values of mrwp_view_id defined in the current SEI messege. )

num_component_id_minus1[ i ][ j ] 플러스1은 i번째 패킹된 리젼을 기술하는 컴포넌트 뷰 인디케이터들의 개수를 나타낸다. num_component_id_minus1[ i ][ j ]은 1보다 크고, i번째 패킹된 리젼이 j번째 뷰의 컴포넌트들과 공유될 수 있음을 나타낸다(plus 1 specifies the number of the component view indicators describing the i-th packed region. num_component_id_minus1[ i ][ j ] greater than 1 could represent that the i-th packed region is shared amog the components of the j-th view. )

component_idx[ i ][ j ][ k ] i번째 패킹된 리젼에 관한 프로젝트된 픽쳐의 사이즈 및 프로젝션 타입, 컴포넌트 타입을 기술하는 j번째 뷰의 k번째 컴포넌트 인디케이터를 나타낸다. component_idx[ i ][ j ][ k ]의 값은 커런트 SEI메시지에 정의된 mrwp_component_id의 값들 중 하나와 매치될 수 있다(specifies the k-th component indicator of the j-th view which describes the component type, projection type and the size of the projected picture with regard to the i-th packed region. The value of component_idx[ i ][ j ][ k ] shall be match with one of the values of mrwp_component_id defined in the current SEI messege.)

proj_region_width[ i ][ j ][ k ], proj_region_height[ i ][ j ][ k ], proj_region_top[ i ][ j ][ k ] and proj_region_left[ i ][ j ][ k ] 프로젝트된 픽쳐 내 (constituent_picture_matching_flag이 0이면) 또는 프로젝트된 픽쳐의 컨스티튜언트 픽쳐 내 (constituent_picture_matching_flag이 1이면) i번째 프로젝트된 리젼의 각 너비, 높이, 탑 샘플 로우, 및 레프트-모스트 샘플 컬럼을 나타낸다. 확장으로, 프로젝트된 픽쳐는 component_idx 및view_idx 에 의해 인디케이팅되는 뷰잉 포지션의 컴포넌트의 프로젝트된 픽쳐를 나타낸다. proj_region_width[ i ][ j ][ k ], proj_region_height[ i ][ j ][ k ], proj_region_top[ i ][ j ][ k ], and proj_region_left[ i ][ j ][ k ]은 프로젝트된 픽쳐 샘플 유닛들에 대해 인디케이트된다(specify the width, height, top sample row, and the left-most sample column, respectively, of the i-th projected region, either within the projected picture (when constituent_picture_matching_flag is equal to 0) or within the constituent picture of the projected picture (when constituent_picture_matching_flag is equal to 1). For this extension, the projected picture represents the projected picture of the component of the viewing position indicated by component_idx and view_idx. proj_region_width[ i ][ j ][ k ], proj_region_height[ i ][ j ][ k ], proj_region_top[ i ][ j ][ k ], and proj_region_left[ i ][ j ][ k ] are indicated in relative projected picture sample units.)

노트1- 두 개의 프로젝트된 리젼들은 부분적 또는 전체적으로 서로 오버랩될 수 있다(NOTE 1 Two projected regions may partially or entirely overlap with each other.)

rwp_reserved_zero_4bits[ i ] 은 이 문서의 버전에 따른 비트스트림 내에서 0일 수 있다. rwp_reserved_zero_4bits[ i ]의 다른 값들은 ITU-T | ISO/IEC 에 의해 사용되는 퓨처 유즈를 위해 예약된다. 디코더들은 rwp_reserved_zero_4bits[ i ]의 값을 무시할 수 있다(shall be equal to 0 in bitstreams conforming to this version of this Specification. Other values for rwp_reserved_zero_4bits[ i ] are reserved for future use by ITU-T | ISO/IEC. Decoders shall ignore the value of rwp_reserved_zero_4bits[ i ].)

rwp_transform_type[ i ] 은 i번째 프로젝트된 리젼을 리맵하기 위한 i번째 패킹된 리젼에 적용되기 위한 로테이션 및 미러링을 나타낸다. rwp_transform_type[ i ]이 로테이션, 미러링을 나타내고, 미러링 이전에 로테이션이 적용된다. rwp_transform_type[ i ]의 값들은 다음과 같다. rwp_transform_type[ i ]이 0이면 i번째 패킹된 리젼을 위해 사용되는 트랜스포메이션이 없음을 나타낸다. rwp_transform_type[ i ]이1이면, i번째 패킹된 리젼을 위한 호리즌탈 미러링을 나타낸다. rwp_transform_type[ i ]이 2이면, i번째 패킹된 리젼을 위한 180 디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다. rwp_transform_type[ i ]이 3이면 i번째 패킹된 리젼을 위한 호리즌탈 미러링 이후 180 디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다. rwp_transform_type[ i ]이 4이면, i번째 패킹된 리젼을 위한 호리즌탈 미러링 이전에 90디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다. rwp_transform_type[ i ]이 5이면, i번째 패킹된 리젼을 위한 90디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다. rwp_transform_type[ i ]이 6이면, i번째 패킹된 리젼을 위한 호리즌탈 미러링 이전에 270 디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다. rwp_transform_type[ i ]이 7이면, i번째 패킹된 리젼을 위한 270디그리들(안티클럭와이즈)에 의한 로테이션을 나타낸다(specifies the rotation and mirroring to be applied to the i-th packed region to remap to the i-th projected region. When rwp_transform_type[ i ] specifies both rotation and mirroring, rotation applies before mirroring. The values of rwp_transform_type[ i ] are specified as follows. rwp_transform_type[ i ] equal to 0 indicates that no transformation is used for the i-th packed region rwp_transform_type[ i ] equal to 1 indicates mirroring horizontally for the i-th packed region rwp_transform_type[ i ] equal to 2 indicates rotation by 180 degrees (anticlockwise) for the i-th packed region rwp_transform_type[ i ] equal to 3 indicates rotation by 180 degrees (anticlockwise) after mirroring horizontally for the i-th packed region rwp_transform_type[ i ] equal to 4 indicates rotation by 90 degrees (anticlockwise) before mirroring horizontally for the i-th packed region rwp_transform_type[ i ] equal to 5 indicates rotation by 90 degrees (anticlockwise) for the i-th packed region rwp_transform_type[ i ] equal to 6 indicates rotation by 270 degrees (anticlockwise) before mirroring horizontally for the i-th packed region rwp_transform_type[ i ] equal to 7 indicates rotation by 270 degrees (anticlockwise) for the i-th packed region)

rwp_guard_band_flag[ i ] 이 0이면, i번째 패킹된 리젼이 가드 밴드를 가지지 않음을 나타낸다. rwp_guard_band_flag[ i ]이 1이면, i번째 패킹된 리젼이 가드 밴드를 가짐을 나타낸다(equal to 0 specifies that the i-th packed region does not have a guard band. rwp_guard_band_flag[ i ] equal to 1 specifies that the i-th packed region has a guard band.)

packed_region_width[ i ], packed_region_height[ i ], packed_region_top[ i ], and packed_region_left[ i ] 은 리젼-와이즈 패킹된 픽쳐 내 (constituent_picture_matching_flag이 0이면) 또는 리젼-와이즈 패킹된 픽쳐의 각 컨스티튜언트 픽쳐 내(constituent_picture_matching_flag이 1이면) 패킹된 리젼의 너비, 높이, 탐 루마 샘플 로우, 및 레프트-모스트 루마 샘프 컬럼을 각각 나타낸다. packed_region_width[ i ], packed_region_height[ i ], packed_region_top[ i ], and packed_region_left[ i ]은 리젼-와이즈 패킹된 픽쳐 샘플 유닛들에 대해 식별된다. packed_region_width[ i ], packed_region_height[ i ], packed_region_top[ i ], and packed_region_left[ i ]은 크롭된 디코딩된 픽쳐 내 루마 샘플 유닛들의 인티저 호리즌탈 및 버티칼 코디네이트들을 나타낸다(specify the width, height, the top luma sample row, and the left-most luma sample column, respectively, of the packed region, either within the region-wise packed picture (when constituent_picture_matching_flag is equal to 0) or within each constituent picture of the region-wise packed picture (when constituent_picture_matching_flag is equal to 1). packed_region_width[ i ], packed_region_height[ i ], packed_region_top[ i ], and packed_region_left[ i ] are indicated in relative region-wise packed picture sample units. packed_region_width[ i ], packed_region_height[ i ], packed_region_top[ i ], and packed_region_left[ i ] shall represent integer horizontal and vertical coordinates of luma sample units within the cropped decoded pictures.)

노트 2- 두 개의 패킹된 리젼들은 서로 부분적 또는 전체적으로 오버래될 수 있다(NOTE 2 Two packed regions may partially or entirely overlap with each other.)

rwp_left_guard_band_width[ i ] 는 리젼-와이즈 패킹된 픽쳐 샘플 유닛들에 관한 i번째 패킹된 리젼의 레프트 사이드 상 가드 밴드의 너비를 나타낸다. chroma_format_idc이 1과 같은 경우 (4:2:0 chroma format) 또는 2인 경우 (4:2:2 chroma format), rwp_left_guard_band_width[ i ]은 크롭된 디코딩된 픽쳐 내 루마 샘플들의 짝수 넘버에 대응할 수 있다(specifies the width of the guard band on the left side of the i-th packed region in relative region-wise packed picture sample units. When chroma_format_idc is equal to 1 (4:2:0 chroma format) or 2 (4:2:2 chroma format), rwp_left_guard_band_width[ i ] shall correspond to an even number of luma samples within the cropped decoded picture.)

rwp_right_guard_band_width[ i ] 리젼-와이즈 패킹된 픽쳐 샘플 유닛들에 관핸 i번째 패킹된 리젼의 롸이트 사이트 상 가드 밴드의 너비를 나타낸다. chroma_format_idc이 1이면(4:2:0 chroma format) 또는 2이면 (4:2:2 chroma format), rwp_right_guard_band_width[ i ]는 크롭된 디코딩된 픽쳐 내 루마 샘플들의 짝수 넘버에 대응할 수 있다(specifies the width of the guard band on the right side of the i-th packed region in relative region-wise packed picture sample units. When chroma_format_idc is equal to 1 (4:2:0 chroma format) or 2 (4:2:2 chroma format), rwp_right_guard_band_width[ i ] shall correspond to an even number of luma samples within the cropped decoded picture.)

rwp_top_guard_band_height[ i ] 는 리젼-와이즈 패킹된 픽쳐 샘플 유닛들에 관해 i번째 패킹된 리젼 상 가드 밴드의 높이를 나타낸다. chroma_format_idc이 1이면(4:2:0 chroma format), rwp_top_guard_band_height[ i ]은 크롭된 디코딩된 픽쳐 내 루마 샘플들의 짝수 넘버에 대응한다(specifies the height of the guard band above the i-th packed region in relative region-wise packed picture sample units. When chroma_format_idc is equal to 1 (4:2:0 chroma format), rwp_top_guard_band_height[ i ] shall correspond to an even number of luma samples within the cropped decoded picture.)

rwp_bottom_guard_band_height[ i ] 리젼-와이즈 패킹된 픽쳐 샘플 유닛들에 관핸 i번째 패킹된 픽쳐 아래 가드 밴드의 높이를 나타낸다. chroma_format_idc이 1이면(4:2:0 chroma format), rwp_bottom_guard_band_height[ i ]은 크롭된 디코딩된 픽쳐 내 루마 샘플들의 짝수 넘버에 대응한다(specifies the height of the guard band below the i-th packed region in relative region-wise packed picture sample units. When chroma_format_idc is equal to 1 (4:2:0 chroma format), rwp_bottom_guard_band_height[ i ] shall correspond to an even number of luma samples within the cropped decoded picture.) rwp_guard_band_flag[ i ]이 1이면, rwp_left_guard_band_width[ i ], rwp_right_guard_band_width[ i ], rwp_top_guard_band_height[ i ], or rwp_bottom_guard_band_height[ i ]은 0보다 크다(When rwp_guard_band_flag[ i ] is equal to 1, rwp_left_guard_band_width[ i ], rwp_right_guard_band_width[ i ], rwp_top_guard_band_height[ i ], or rwp_bottom_guard_band_height[ i ] shall be greater than 0.). SEI 메시지에 의해 기술되는 i번째 패킹된 픽쳐는 같은 SEI메시지에 의해 기술되는 다른 패킹된 리젼 또는 같은 SEI메시지에 의해 기술되는 가드 밴드와 오버랩되지 않는다(The i-th packed region as specified by this SEI message shall not overlap with any other packed region specified by the same SEI message or any guard band specified by the same SEI message.)

SEI메시지에 의해 기술되는 i번째 패킹된 리젼과 연관된 가드 밴드는 같은 SEI메시지에 의해 기술되는 패킹된 리젼 또는 같은 SEI 메시지에 의해 기술되는 가드밴드와 오버랩되지 않는다(The guard bands associated with the i-th packed region, if any, as specified by this SEI message shall not overlap with any packed region specified by the same SEI message or any other guard bands specified by the same SEI message.)

rwp_guard_band_not_used_for_pred_flag[ i ] 이 0이면, 가드밴드들이 인터 프레딕션 프로세스 내 사용되거나 사용되지 않음을 나타낸다. rwp_guard_band_not_used_for_pred_flag[ i ]이 1이면, 가드 밴드들의 샘플 값들이 인터 프레딕션 프로세스에 사용되지 않음을 나타낸다(equal to 0 specifies that the guard bands may or may not be used in the inter prediction process. rwp_guard_band_not_used_for_pred_flag[ i ] equal to 1 specifies that the sample values of the guard bands are not used in the inter prediction process.)

노트3- rwp_guard_band_not_used_for_pred_flag[ i ] 이 1이면, 크롭된 디코딩된 픽쳐들 내 가드 밴드들 내 샘플 값들은 크롭된 디코딩된 픽쳐들이 디코딩되는 서브스퀀트 픽쳐들의 인터 프레딕션을 위한 레퍼런스들로 사용되더라도 재작성될 수 있다. 예를 들어, 패킹된 리젼의 컨텐트는 심리스하게 다른 패킹된 리젼의 디코딩되고 리-프로젝트된 샘플들 갖는 가드 밴드로 확장될 수 있다(NOTE 3 When rwp_guard_band_not_used_for_pred_flag[ i ] is equal to 1, the sample values within guard bands in cropped decoded pictures can be rewritten even if the cropped decoded pictures were used as references for inter prediction of subsequent pictures to be decoded. For example, the content of a packed region can be seamlessly expanded to its guard band with decoded and re-projected samples of another packed region.)

rwp_guard_band_type[ i ][ j ] 는 i번째 패킹된 리젼을 위한 가드 밴드들의 타입을 나타낸다. j가 0, 1, 2, 3이면, 이 아래 시맨틱들은 패킹된 리젼의 레프트, 롸이트, 탑, 또는 보틈 엣지에 각각 적용된다. rwp_guard_band_type[ i ][ j ]이 0이면, 패킹된 리젼들의 컨텐트에 관련된 가드 밴드들의 컨텐트는 unspecified하다. rwp_guard_band_not_used_for_pred_flag[ i ]이 0이면 rwp_guard_band_type[ i ][ j ]은 0이 아니다. rwp_guard_band_type[ i ][ j ]이 1이면, 가드 밴드들의 컨텐트는 패킹된 리젼 및 패킹된 리젼의 바운더리의 샘플 아웃사이드보다 적은 서브-펄 샘플 프랙션널 로케이션들에서 샘플 값들의 인터폴레이션을 위해 충분하다. 노트 4- rwp_guard_band_type[ i ][ j ]이 1이면, 가드 밴드에 대해 호리즌탈 또는 버티컬하게 카피된 패킹된 리젼의 바운더리 샘플들이 가드 밴드에 대해 호리즌탈 또는 버티컬하게 카피된 경우에 사용될 수 있다.

rwp_guard_band_type[ i ][ j ]이 2이면, 가드 밴드들의 컨텐트는 패킹된 리젼 내 컨텐트에 스페리컬하게 인접하고, 패킹된 리젼의 픽쳐 퀄리티로부터 스페리컬하게 인접한 패킹된 리젼의 그것으로까지 점진적으로 변화하는 퀄리티에서 패킹된 리젼의 서페이스 상에 있는 실제 픽쳐 컨텐트를 나타낸다.

rwp_guard_band_type[ i ][ j ]이 3이면, 가드 밴드들의 컨텐트는 패킹된 리젼의 컨텐트에 스페리컬하게 인접하고, 패킹된 리젼 내 유사한 픽쳐 퀄리티레 피킹된 리젼의 서페이스 상에 있는 실제 픽쳐 컨텐트를 나타낸다(indicates the type of the guard bands for the i-th packed region as follows, with j equal to 0, 1, 2, or 3 indicating that the semantics below apply to the left, right, top, or bottom edge, respectively, of the packed region: rwp_guard_band_type[ i ][ j ] equal to 0 indicates that the content of the guard bands in relation to the content of the packed regions is unspecified. When rwp_guard_band_not_used_for_pred_flag[ i ] is equal to 0, rwp_guard_band_type[ i ][ j ] shall not be equal to 0. rwp_guard_band_type[ i ][ j ] equal to 1 indicates that the content of the guard bands suffices for interpolation of sample values at sub-pel sample fractional locations within the packed region and less than one sample outside of the boundary of the packed region. NOTE 4 rwp_guard_band_type[ i ][ j ] equal to 1 can be used when the boundary samples of a packed region have been copied horizontally or vertically to the guard band. rwp_guard_band_type[ i ][ j ] equal to 2 indicates that the content of the guard bands represents actual picture content that is spherically adjacent to the content in the packed region and is on the surface of the packed region at a quality that gradually changes from the picture quality of the packed region to that of the spherically adjacent packed region. rwp_guard_band_type[ i ][ j ] equal to 3 indicates that the content of the guard bands represents actual picture content that is spherically adjacent to the content in the packed region and is on the surface of the packed region at a similar picture quality as within the packed region.)

rwp_guard_band_type[ i ][ j ]이 3보다 크면, ITU-T | ISO/IEC에 의해 사용되는 퓨처 유즈를 위해 리저브된다. 디코더들은 rwp_guard_band_type[ i ][ j ]의 값을 3보다 큰 경우 0과 같은 값으로 취급한다. ( rwp_guard_band_type[ i ][ j ] values greater than 3 are reserved for future use by ITU-T | ISO/IEC. Decoders shall treat the value of rwp_guard_band_type[ i ][ j ] when the value is greater than 3 as equivalent to the value 0.)

rwp_guard_band_reserved_zero_3bits[ i ] 은 이 문서의 이 버전에 따른 비트스트림 내 0과 같다. rwp_guard_band_reserved_zero_3bits[ i ]의 다른 값들은 ITU-T | ISO/IEC에 의해 사용되는 퓨처 유즈를 위해 예약된다. 디코더들은 rwp_guard_band_reserved_zero_3bits[ i ]의 값을 무시한다(shall be equal to 0 in bitstreams conforming to this version of this Specification. Other values for rwp_guard_band_reserved_zero_3bits[ i ] are reserved for future use by ITU-T | ISO/IEC. Decoders shall ignore the value of rwp_guard_band_reserved_zero_3bits[ i ].)

변수 NumPackedRegions, PackedRegionLeft[ n ], PackedRegionTop[ n ], PackedRegionWidth[ n ], PackedRegionHeight[ n ], ProjRegionLeft[ n ], ProjRegionTop[ n ], ProjRegionWidth[ n ], ProjRegionHeight[ n ], and TransformType[ n ]는 다음과 같다(The variables NumPackedRegions, PackedRegionLeft[ n ], PackedRegionTop[ n ], PackedRegionWidth[ n ], PackedRegionHeight[ n ], ProjRegionLeft[ n ], ProjRegionTop[ n ], ProjRegionWidth[ n ], ProjRegionHeight[ n ], and TransformType[ n ] are derived as follows)

0 내지 num_packed_regions - 1, (포함)의 범위 내의n에 대하여 다음이 적용된다: PackedRegionLeft[ n ]은 packed_region_left[ n ]와 같다. PackedRegionTop[ n ]은 packed_region_top[ n ]와 같다. PackedRegionWidth[ n ]은 to packed_region_width[ n ]와 같다. PackedRegionHeight[ n ] 은 packed_region_height[ n ]와 같다. o ProjRegionLeft[ n ] is set equal to proj_region_left[ n ]. ProjRegionTop[ n ] 은 proj_region_top[ n ] 와 같다. ProjRegionWidth[ n ] 은 proj_region_width[ n ] 와 같다. ProjRegionHeight[ n ] 은 proj_region_height[ n ]와 같다. TransformType[ n ] 은 rwp_transform_type[ n ]와 같다. (For n in the range of 0 to num_packed_regions - 1, inclusive, the following applies: PackedRegionLeft[ n ] is set equal to packed_region_left[ n ]. PackedRegionTop[ n ] is set equal to packed_region_top[ n ]. PackedRegionWidth[ n ] is set equal to packed_region_width[ n ]. PackedRegionHeight[ n ] is set equal to packed_region_height[ n ]. ProjRegionLeft[ n ] is set equal to proj_region_left[ n ]. ProjRegionTop[ n ] is set equal to proj_region_top[ n ]. ProjRegionWidth[ n ] is set equal to proj_region_width[ n ]. ProjRegionHeight[ n ] is set equal to proj_region_height[ n ]. TransformType[ n ] is set equal to rwp_transform_type[ n ].)

constituent_picture_matching_flag가 0이면 다음이 적용된다. NumPackedRegions이 num_packed_regions과 같다(If constituent_picture_matching_flag is equal to 0, the following applies: NumPackedRegions is set equal to num_packed_regions.)

반면에(constituent_picture_matching_flag이 1이면) 다음이 적용된다: NumPackedRegions 이 2 * num_packed_regions가 된다. TopBottomFlag이 1이면, 다음이 적용된다: projLeftOffset and packedLeftOffset은 0이 된다. projTopOffset은 proj_picture_height / 2가 되고, packedTopOffset은 packed_picture_height / 2이 된다. SideBySideFlag이 1이면, 다음이 적용된다: projLeftOffset은 proj_picture_width / 2이 되고, packedLeftOffset은 packed_picture_width / 2이 된다. projTopOffset and packedTopOffset은 0이 된다. NumPackedRegions / 2 내지 NumPackedRegions - 1(포함) 범위 내 n에 대해, 다음이 적용된다: nIdx은 n - NumPackedRegions / 2이 된다. PackedRegionLeft[ n ]은 packed_region_left[ nIdx ] + packedLeftOffset이 된다. PackedRegionTop[ n ]은 packed_region_top[ nIdx ] + packedTopOffset이 된다. PackedRegionWidth[ n ]은 packed_region_width[ nIdx ]이 된다. PackedRegionHeight[ n ]은 packed_region_height[ nIdx ]이 된다. ProjRegionLeft[ n ]은 proj_region_left[ nIdx ] + projLeftOffset이 된다. ProjRegionTop[ n ]은 proj_region_top[ nIdx ] + projTopOffset이 된다. ProjRegionWidth[ n ]은 proj_region_width[ nIdx ]이 된다. ProjRegionHeight[ n ]은 proj_region_height[ nIdx ]이 된다. TransformType[ n ]은 rwp_transform_type[ nIdx ]이 된다(Otherwise (constituent_picture_matching_flag is equal to 1), the following applies: NumPackedRegions is set equal to 2 * num_packed_regions. When TopBottomFlag is equal to 1, the following applies: projLeftOffset and packedLeftOffset are both set equal to 0. projTopOffset is set equal to proj_picture_height / 2 and packedTopOffset is set equal to packed_picture_height / 2. When SideBySideFlag is equal to 1, the following applies: projLeftOffset is set equal to proj_picture_width / 2 and packedLeftOffset is set equal to packed_picture_width / 2. projTopOffset and packedTopOffset are both set equal to 0. For n in the range of NumPackedRegions / 2 to NumPackedRegions - 1, inclusive, the following applies: nIdx is set equal to n - NumPackedRegions / 2. PackedRegionLeft[ n ] is set equal to packed_region_left[ nIdx ] + packedLeftOffset. PackedRegionTop[ n ] is set equal to packed_region_top[ nIdx ] + packedTopOffset. PackedRegionWidth[ n ] is set equal to packed_region_width[ nIdx ]. PackedRegionHeight[ n ] is set equal to packed_region_height[ nIdx ]. ProjRegionLeft[ n ] is set equal to proj_region_left[ nIdx ] + projLeftOffset. ProjRegionTop[ n ] is set equal to proj_region_top[ nIdx ] + projTopOffset. ProjRegionWidth[ n ] is set equal to proj_region_width[ nIdx ]. ProjRegionHeight[ n ] is set equal to proj_region_height[ nIdx ]. TransformType[ n ] is set equal to rwp_transform_type[ nIdx ].)

0 내지NumPackedRegions - 1, (포함) 범위의 n의 각 값에 대하여, ProjRegionWidth[ n ], ProjRegionHeight[ n ], ProjRegionTop[ n ], and ProjRegionLeft[ n ]의 값은 다음을 따른다: ProjRegionWidth[ n ]은 1 내지proj_picture_width, 포함의 범위이다. ProjRegionHeight[ n ]은 1 내지proj_picture_height, 포함의 범위이다. ProjRegionLeft[ n ]은 0 내지proj_picture_width - 1, 포함의 범위이다. ProjRegionTop[ n ]은 0 내지proj_picture_height - 1, 포함의 범위이다. ProjRegionTop[ n ]이 proj_picture_height / VerDiv1보다 적은 경우, ProjRegionTop[ n ] and ProjRegionHeight[ n ]의 합은 proj_picture_height / VerDiv1보다 작거나 같다. ProjRegionTop[ n ] and ProjRegionHeight[ n ]의 합은 proj_picture_height / VerDiv1 * 2보다 작거나 같다(For each value of n in the range of 0 to NumPackedRegions - 1, inclusive, the values of ProjRegionWidth[ n ], ProjRegionHeight[ n ], ProjRegionTop[ n ], and ProjRegionLeft[ n ] are constrained as follows: ProjRegionWidth[ n ] shall be in the range of 1 to proj_picture_width, inclusive. ProjRegionHeight[ n ] shall be in the range of 1 to proj_picture_height, inclusive. ProjRegionLeft[ n ] shall be in the range of 0 to proj_picture_width - 1, inclusive. ProjRegionTop[ n ] shall be in the range of 0 to proj_picture_height - 1, inclusive. If ProjRegionTop[ n ] is less than proj_picture_height / VerDiv1, the sum of ProjRegionTop[ n ] and ProjRegionHeight[ n ] shall be less than or equal to proj_picture_height / VerDiv1. Otherwise, the sum of ProjRegionTop[ n ] and ProjRegionHeight[ n ] shall be less than or equal to proj_picture_height / VerDiv1 * 2.)

0 내지NumPackedRegions - 1, 포함의 범위 내 각 n값에 대하여, PackedRegionWidth[ n ], PackedRegionHeight[ n ], PackedRegionTop[ n ], and PackedRegionLeft[ n ]의 값들은 다음과 같다: PackedRegionWidth[ n ]은 1 내지packed_picture_width, 포함의 범위이다. ProjRegionHeight[ n ]은 1 내지packed_picture_height, 포함의 범위이다. PackedRegionLeft[ n ]은 0 내지packed_picture_width - 1, 포함의 범위이다. PackedRegionTop[ n ]은 0 내지packed_picture_height - 1, 포함의 범위이다. PackedRegionLeft[ n ]이 packed_picture_width / HorDiv1보다 작은 경우, PackedRegionLeft[ n ] and PackedRegionWidth[ n ]의 합은 packed_picture_width / HorDiv1보다 작거나 같다. 반면에, PackedRegionLeft[ n ] and PackedRegionWidth[ n ]의 합은 packed_picture_width / HorDiv1 * 2보다 작거나 같다. PackedRegionTop[ n ]이 packed_picture_height / VerDiv1보다 작은 경우, PackedRegionTop[ n ] and PackedRegionHeight[ n ]의 합은 packed_picture_height / VerDiv1보다 작거나 같다. 반면에, PackedRegionTop[ n ] and PackedRegionHeight[ n ]의 합은 packed_picture_height / VerDiv1 * 2보다 작거나 같다. chroma_format_idc이 1이면 (4:2:0 chroma format) 또는 2이면(4:2:2 chroma format), PackedRegionLeft[ n ]은 루마 샘플 유닛들의 짝수 호리즌탈 코디네이트 값에 대응하고, PackedRegionWidth[ n ]은 디코딩된 픽쳐 내, 루마 샘플들의 짝수 넘버에 대응한다. chroma_format_idc이 1이면 (4:2:0 chroma format), PackedRegionTop[ n ]은 루마 샘플 유닛들의 이븐 버티컬 코디네이트 값에 대응한다. ProjRegionHeight[ n ]은 디코딩된 픽쳐 내 루마 샘플들의 이븐 넘버에 대응한다(For each value of n in the range of 0 to NumPackedRegions - 1, inclusive, the values of PackedRegionWidth[ n ], PackedRegionHeight[ n ], PackedRegionTop[ n ], and PackedRegionLeft[ n ] are constrained as follows: PackedRegionWidth[ n ] shall be in the range of 1 to packed_picture_width, inclusive. ProjRegionHeight[ n ] shall be in the range of 1 to packed_picture_height, inclusive. PackedRegionLeft[ n ] shall be in the range of 0 to packed_picture_width - 1, inclusive. PackedRegionTop[ n ] shall be in the range of 0 to packed_picture_height - 1, inclusive. If PackedRegionLeft[ n ] is less than packed_picture_width / HorDiv1, the sum of PackedRegionLeft[ n ] and PackedRegionWidth[ n ] shall be less than or equal to packed_picture_width / HorDiv1. Otherwise, the sum of PackedRegionLeft[ n ] and PackedRegionWidth[ n ] shall be less than or equal to packed_picture_width / HorDiv1 * 2. If PackedRegionTop[ n ] is less than packed_picture_height / VerDiv1, the sum of PackedRegionTop[ n ] and PackedRegionHeight[ n ] shall be less than or equal to packed_picture_height / VerDiv1. Otherwise, the sum of PackedRegionTop[ n ] and PackedRegionHeight[ n ] shall be less than or equal to packed_picture_height / VerDiv1 * 2. When chroma_format_idc is equal to 1 (4:2:0 chroma format) or 2 (4:2:2 chroma format), PackedRegionLeft[ n ] shall correspond to an even horizontal coordinate value of luma sample units, and PackedRegionWidth[ n ] shall correspond to an even number of luma samples, both within the decoded picture. When the chroma_format_idc is equal to 1 (4:2:0 chroma format) , PackedRegionTop[ n ] shall correspond to an even vertical coordinate value of luma sample units, and ProjRegionHeight[ n ] shall correspond to an even number of luma samples, both within the decoded picture.)

전체 영상에 대한 메타데이터는, 예를 들어, 뷰잉 포지션 인포메이션 SEI 메시지 또는 헤드 모션 인포메이션 SEI 메시지에 포함될 수 있다.

뷰잉 포지션 인포메이션 SEI 메시지를 설명하면 다음과 같다.

뷰잉 포지션 인포메이션 SEI 메시지는 뷰잉 포지션 및/또는 뷰포인트에 대응하는 커런트 비디오의 대응하는 인접한 뷰잉 포지션들의 정보를 제공한다(The Viewing position information SEI message provides information of the viewing position and/or corresponding adjacent viewing positions of the current video corresponding to a viewpoint. )

viewing_position_info_id 는 뷰잉 포지션 인포메이션의 목적을 식별하는 식별번호를 포함한다. viewing_position_info_id 의 값은 다른 리시버 캐퍼빌리티를 서포트하기 위해서, 또는 다른 포인트 또는 이 SEI 메시지에 포함된 정보의 다른 레벨을 인디케이팅하기 위해서 등 이 SEI 메시지의 다른 유즈 케이스를 나타내는데 사용될 수 있다(contains an identifying number that may be used to identify the purpose of the viewing position information. The value of viewing_position_info_id may be used to indicate the different use cases of this SEI message, to support different receiver capabilities, or to indicate different level of information contained in the SEI message, or different viewpoint, etc. )

하나 또는 하나 이상의 뷰잉 포지션 인포메이션 SEI 메시지는 viewing_posidion_info_id의 같은 값을 갖고 존재한다. 이러한 뷰잉 포지션 인포메이션 SEI 메시지의 컨텐트는 같다. 뷰잉 포지션 인포메이션 SEI 메시지가 viewing_position_info_id 의 값을 하나 또는 하나 이상 가지며 존재하는 경우, 이는 viewing_posidion_info_id의 다른 값들에 의해 인디케이팅되는 인포메이션이 다른 목적들 또는 시퀀셜 오더로 적용되는 코렉션의 케스케이딩(이 애플리케이션에 따라 기술되는 오더)에 대해 제공되는 얼터니티브함을 나타낼 수 있다. viewing_posidion_info_id 의 값은 0 내지2^12 - 1, 포함의 범위를 가진다(When more than one viewing position information SEI message is present with the same value of viewing_posidion_info_id, the content of these viewing position information SEI messages shall be the same. When viewing position information SEI messages are present that have more than one value of viewing_position_info_id, this may indicate that the information indicated by the different values of viewing_posidion_info_id are alternatives that are provided for different purposes or that a cascading of correction to be applied in a sequential order (an order might be specified depending on the application). The value of viewing_posidion_info_id shall be in the range of 0 to 2^12 - 1, inclusive. )

viewing_position_info_cancel_flag 이 1이면, 뷰잉 포지션 인포메이션 SEI 메시지는 아웃풋 커런트 레이어에 적용되는 오더 내 이전 뷰잉 포지션 인포메이션 SEI 메시지의 퍼시스턴스를 캔슬함을 나타낸다. viewing_position_info_cancel_flag이 0이면, 뷰잉 포지션 인포메이션이 팔로우함을 나타낸다(equal to 1 indicates that the viewing position information SEI message cancels the persistence of any previous viewing position information SEI message in output order that applies to the current layer. viewing_position_info_cancel_flag equal to 0 indicates that viewing position information follows. )

viewing_position_info_persistence_flag 은 커런트 레이어를 위한 뷰잉 포지션 인포메이션 SEI 메시지의 퍼시스턴스를 나타낸다(specifies the persistence of the viewing position information SEI message for the current layer.) viewing_position_info_persistence_flag이 0이면, 뷰잉 포지션 인포메이션이 커런트 디코딩된 픽쳐에만 적용됨을 나타낸다(viewing_position_info_persistence_flag equal to 0 specifies that the viewing position information applies to the current decoded picture only.)

픽쳐A가 커런트 픽쳐라고 가정하면, viewing_position_info_persistence_flag은 1이고, 이는 뷰잉 포지션 인포메이션 SEI 메시지가 다음 조건들이 트루일때까지 아웃풋 오더 내 커런트 레이어를 위해 퍼시스트한다: 커런트 레이어의 새 CLVS가 시작함. 비트스트림이 끝남. 커런트 레이어에 적용 가능한 뷰잉 포지션 인포메이션 SEI 메시지를 포함하는 엑세스 유닛 내 커런트 레이어 내 픽쳐 B가 PicOrderCnt( picB )가 PicOrderCnt( picA )보다 큰 경우에 대한 아웃풋이다. 여기서 PicOrderCnt( picB ) and PicOrderCnt( picA )은 각각 픽쳐A 및 픽쳐 B의 PicOrderCntVal 값들이다(픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인보케이션 이후 즉시)(Let picA be the current picture. viewing_position_info_persistence_flag to 1 specifies that the viewing position information SEI message persists for the current layer in output order until any of the following conditions are true: A new CLVS of the current layer begins. The bitstream ends. A picture picB in the current layer in an access unit containing a viewing position information SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

anchor_viewing_position_flag 이 1이면, 대응하는 디코딩된 픽쳐가 XYZ코디네이트 내 (0,0,0) 이 될 수 있는 또는 anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z 에 의해 명확하게 주어지는 앵커(또는 센터 또는 레프리젠테이티브) 뷰잉 포지션이다. anchor_viewing_position_flag이 0이면, 대응하는 디코딩된 픽쳐가 퍼리퍼럴 또는 사이드 또는 논-앵커 뷰잉 포지션 및 로케이션, 오리엔테이션이고, 및 앵커 뷰잉 포지션의 커버러지 인포메이션은 anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z에 의해 주어진다(equal to 1 indicate that the corresponding decoded picture is the anchor (or center or representative) viewing position which could be assumed (0,0,0) in XYZ coordinate or explicitely given by anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z. anchor_viewing_position_flag equal to 0 indicate that the corresponding decoded picture is periperal or side or non-anchor viewing position and the location, orientation, and coverage information of the anchor viewing position is given by anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z)

viewing_position_x, viewing_position_y, and viewing_position_z 는 2의 마이너스16승 밀리미터들 단위로 디코딩된 픽쳐에 대응하는 뷰잉 포지션의 (x,y,z) 로케이션을 각각 나타낸다. viewing_position_x, viewing_position_y and viewing_position_z의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 32768 * 2^16 (i.e., 2147483648), 포함의 범위 내에 있다(indicate the (x,y,z) location of viewing position corresponding to the decoded picture in the units of 2^-16 millimeters, respectively The range of viewing_position_x, viewing_position_y and viewing_position_z shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive. )

viewing_position_x, viewing_position_y and viewing_position_z의 값은 XYZ 코디네이트 내 앱솔루트 포지션 또는 앵커 로케이션에 대응하는 릴레티브 포지션에 의해 표현된다(The value of viewing_position_x, viewing_position_y and viewing_position_z could be reprsented by absolute position in the XYZ coordinate or relateive position corresponding to the anchor location. )

viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll 는 요, 피치, 및 롤 오리엔테이션 앵글들을 각각 2의 마이너스16승 디그리 단위로 나타낸다. viewing_orientation_yaw의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479), 포함,의 범위를 가진다. viewing_orientation_pitch의 값은 -90 * 2^16 (i.e., -5898240) 내지90 * 2^16 (i.e., 5898240), 포함의 범위를 가진다. viewing_orientation_roll의 값은 of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다(indicate the yaw, pitch, and roll orientation angles in units of 2^-16 degrees, repectively. The value of viewing_orientation_yaw shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of viewing_orientation_pitch shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of viewing_orientation_roll shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. )

애플리케이션들에 따라서, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll은 아지무스, 엘리베이션, 및 틸트 각각을 인디케이팅하는데 사용될 수 있다. 또한, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll은 로컬 코디네이트 축을 글로벌 코디에니트 축으로 각각 컨버팅하기 위해서 디코딩된 픽쳐에 대응하는 헤드 포지션의 유닛 스피어에 적용되는 로테이션을 표현할 수 있다(Depending on the applications, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll could be used to indicate azimuth, elevation, and tilt, respectively. Also, viewing_orientation_yaw, viewing_orientation_pitch, and viewing_orientation_roll could represent the rotation that is applied to the unit sphere of head position corresponding to the decoded picture to convert the local coordinate axes to the global coordinate axes, respectively. )

coverage_horizontal and coverage_vertical 는 디코딩된 픽쳐에 대응하는 뷰잉 포지션의 커버리지의 호리즌탈 및 버티컬 범위들을 2의 마이너스16승 디그리 단위로 각각 나타낸다(specifies the horizontal and vertical ranges of the coverage of the viewing position corresponding to the decoded picture, in units of 2^-16 degrees, respectively. )

anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z 는 디코딩된 픽쳐에 대응하는 뷰잉 포지션 세트의 앵커 뷰잉 포지션의 (XYZ) 로케이션을 2의 마이너스16승 밀리미터들 단위로 각각 나타낸다. anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 32768 * 2^16 (i.e., 2147483648), 포함의 범위를 가진다(indicate the (x,y,z) location of anchor viewing position of a viewing position set corresponding to the decoded picture, in the units of 2^-16 millimeters, respectively The range of anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive. )

여러 케이스들에 대해서, anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z는 같은 뷰잉 포지션 세트 내 다른 뷰잉 포지션의 로케이션이 앵커 뷰잉 포지션에 대한 포지션으로서 표현될 수 있도록 (0, 0, 0)으로 가정될 수 있다(In some cases, anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z could be assumed to be (0, 0, 0) so that the location of other viewing positions in the same viewing position set could be represented as the position relative to the anchor viewing position. )

여러 애플리케이션들에 대해, anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z은 뷰포인트를 인디케이팅하는데 사용될 수 있다(In some applications, anchor_viewing_position_x, anchor_viewing_position_y and anchor_viewing_position_z could be used to indicate the viewpoint. )

anchor_viewing_orientation_yaw, anchor_viewing_orientation_pitch, and anchor_viewing_orientation_roll 은 앵커 뷰잉 포지션을 나타내는 스피어의 요, 피치, 및 롤 오리엔테이션 앵글들을 2의 마이너스16승 디그리들 단위로 각각 나타낸다. anchor_viewing_orientation_yaw의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다. anchor_viewing_orientation_pitch의 값은 -90 * 2^16 (i.e., -5898240) 내지90 * 2^16 (i.e., 5898240), 포함의 범위를 가진다. anchor_viewing_orientation_roll의 값은 -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다(indicate the yaw, pitch, and roll orientation angles of the sphere representing anchor viewing position in units of 2^-16 degrees, respectively. The value of anchor_viewing_orientation_yaw shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of anchor_viewing_orientation_pitch shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of anchor_viewing_orientation_roll shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. )

어플리케이션들에 따라서, anchor_viewing_orientation_yaw, anchor_viewing_orientation_pitch, and anchor_viewing_orientation_roll은 아지무스, 엘리베이션, 틸트를 각각 인디케이팅하는데 사용될 수 있다. 또한, anchor_viewing_orientation_yaw, anchor_viewing_orientation_pitch, and anchor_viewing_orientation_roll은 로컬 코디네이트 축을 글로벌 코디네이트 축으로 각각 변환시키기 위해서 앵커 뷰잉 포지션의 유닛 스피어에 적용되는 로테이션을 나타낼 수 있다(Depending on the applications, anchor_viewing_orientation_yaw, anchor_viewing_orientation_pitch, and anchor_viewing_orientation_roll could be used to indicate azimuth, elevation, and tilt, respectively. Also, anchor_viewing_orientation_yaw, anchor_viewing_orientation_pitch, and anchor_viewing_orientation_roll could represent the rotation that is applied to the unit sphere of the anchor viewing position to convert the local coordinate axes to the global coordinate axes, respectively. )

anchor_coverage_horizontal and anchor_coverage_vertical 는 앵커 뷰잉 포지션의 커버리지의 호리즌탈 및 버티칼 범위를 2의 마이너스16승 단위로 각각 나타낸다(specifies the horizontal and vertical ranges of the coverage of the anchor viewing position, in units of 2^-16 degrees, respectively. )

num_viewing_positions 는 커런트 뷰잉 포지션에 관련된 뷰잉 포지션들의 개수를 나타낸다(specifies the number of viewing positions related to the current viewing position. )

set_viewing_position_x, set_viewing_position_y and set_viewing_position_z 는 인접하거나 디코딩된 픽쳐에 대응하는 뷰잉 포지션 세트 내 모든 뷰잉 포지션들의 i번째 XYZ 코디네이트 로케이션을 2의 마이너스16승 밀리미터들 단위로 각각 나타낸다. set_viewing_position_x, set_viewing_position_y and set_viewing_position_z 의 범위는 -32768 * 2^16 - 1 (i.e., -2147483647) 내지32768 * 2^16 (i.e., 2147483648), 포함의 범위를 가진다(indicate the i-th XYZ coordinate location of the adjacent or all viewing positions in the viewing position set corresponding to the decoded picture, in the units of 2^-16 millimeters, respectively. The range of set_viewing_position_x, set_viewing_position_y and set_viewing_position_z shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

set_viewing_position_x, set_viewing_position_y and set_viewing_position_z의 값은 viewing_position_x, viewing_position_y and viewing_position_z의 표현으로 얼라인되는 앵커 로케이션에 대응하는 릴레티브 포지션 또는 XYZ 코디네이트 내 앱솔루트 포지션에 의해 표현될 수 있다(The value of set_viewing_position_x, set_viewing_position_y and set_viewing_position_z could be reprsented by absolute position in the XYZ coordinate or relateive position corresponding to the anchor location, which shall be aligned with the representation of viewing_position_x, viewing_position_y and viewing_position_z. )

set_viewing_orientation_yaw, set_viewing_orientation_pitch, and set_viewing_orientation_roll 은 디코딩된 픽쳐에 대응하는 뷰잉 포지션 세트 내 i번째 뷰잉 포지션의 각 요, 피치, 롤 오리엔테이션 앵글들을 2의 마이너스16승 디그리 단위들로 나타낸다. set_viewing_orientation_yaw의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다. set_viewing_orientation_pitch의 값은 -90 * 2^16 (i.e., -5898240) 내지90 * 2^16 (i.e., 5898240), 포함의 범위를 가진다. set_viewing_orientation_roll의 값은 -180 * 2^16 (i.e., -11796480) 내지180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다(indicate the yaw, pitch, and roll orientation angles, respectively, of the i-th viewing position in a viewing position set corresponding to the decoded picture, in units of 2^-16 degrees. The value of set_viewing_orientation_yaw shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of set_viewing_orientation_pitch shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of set_viewing_orientation_roll shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. )

어플리케이션들에 따라서, set_viewing_orientation_yaw, set_viewing_orientation_pitch, and set_viewing_orientation_roll은 아지무스, 엘리베이션, 및 틸트 각각을 인디케이팅하는데 사용될 수 있다. 또한, set_viewing_orientation_yaw, set_viewing_orientation_pitch, and set_viewing_orientation_roll은 로컬 코디네이트 축을 글로벌 코디네이트 축으로 각각 변환하기 위해서 디코딩된 픽쳐에 대응하는 뷰잉 포지션 세트 내 i번째 뷰잉 포지션의 유닛 스피어에 적용되는 로테이션을 나타낸다(Depending on the applications, set_viewing_orientation_yaw, set_viewing_orientation_pitch, and set_viewing_orientation_roll could be used to indicate azimuth, elevation, and tilt, respectively. Also, set_viewing_orientation_yaw, set_viewing_orientation_pitch, and set_viewing_orientation_roll could represent the rotation that is applied to the unit sphere of the i-th viewing position in a viewing position set corresponding to the decoded picture to convert the local coordinate axes to the global coordinate axes, respectively. )

set_coverage_horizontal and set_coverage_vertical 은 디코딩된 픽쳐에 대응하는 뷰잉 포지션 세트 내 i번째 뷰잉 포지션의 커버리지의 호리즌탈 및 버티칼 범위를 2의 마이너스16승 디그리들 단위로 각각 나타낸다(specifies the horizontal and vertical ranges of the coverage of the i-th viewing position in a viewing position set corresponding to the decoded picture, in units of 2^-16 degrees, respectively. )

헤드 모션 인포메이션 SEI메시지를 설명하면 다음과 같다.

헤드 모션 인포메이션 SEI메시지는 뷰포인트에 대응하는 커런트 비디오의 헤드 모션 바운더리의 정보를 제공한다. 여기서, 헤드 모션 바운더리 또는 뷰잉 스페이스는 뷰이미지 및 비디오의 렌더링이 이네이블되고, VR 경험이 가능한 뷰잉 포지션들의 3D스페이스를 나타낸다. 수신기에서, 뷰포트는 인터미디에이트 뷰잉 포지션을 위한 뷰잉 포지션 또는 신테사이즈된/리컨스트럭트된 픽쳐의 의 디코딩된 픽쳐에 의해 생성될 수 있다.(The Head motion information SEI message provides information of the head motion boundary of the current video corresponding to a viewpoint, where head motion boundary or viewing space represent the 3D space of viewing positions within which rendering of image and video is enabled and VR experience is valid. In the receiver, a viewport could be generated by a decoded picture of a viewing position or a synthesized/reconstructed picture for an intermediate viewing position. )

캡쳐의 컨디션들에 따른 인터미디에이트 뷰들의 범위를 정의하는 것 및 인터미디에이트 뷰들 범위를 정의하는 것은 의미있다(It is meaningful to define the range of the intermediate views according to the conditions of capture, and typically to define the intermediate views range.)

head_motion_info_id 뷰잉 포지션 인포메이션의 목적을 식별하는데 사용되는 식별 번호를 나타낸다. head_motion_info_id의 값은 다른 리시버 캐퍼빌리티들을 서포트하고 또는 다른 뷰 포인트 또는 이 SEI메시지에 포함된 정보의 다른 레벨을 나타내기 위한 이 SEI메시지의 다른 유즈케이스들을 나타내기 위해서 사용될 수 있다(contains an identifying number that may be used to identify the purpose of the viewing position information. The value of head_motion_info_id may be used to indicate the different use cases of this SEI message, to support different receiver capabilities, or to indicate different level of information contained in the SEI message, or different viewpoint, etc. )

하나 또는 하나 이상의 헤드 모션 인포메이션 SEI메시지는 head_motion_info_id의 같은 값을 가지고 존재하는 경우, 헤드 모션 인포메이션 SEI메시지의 컨텐트는 같다. 하나 또는 하나 이상의 head_motion_info_id의 값을 갖는 헤드 포지션 인포케이션 SEI메시지가 존재하는 경우, head_motion_info_id의 다른 값들에 의해 인디케이팅되는 정보들이 다른 목적들을 위해 제공되거나 시퀀셜 오더(오더는 이 애플리케이션에 따라 기술될 수 있다) 내 적용되는 코렉션의 케스케이딩인 얼터네이티브임을 나타낸다. head_position_info_id의 값은 0 to 2^12 - 1, 포함의 범위를 가진다(When more than one head motion information SEI message is present with the same value of head_motion_info_id, the content of these head motion information SEI messages shall be the same. When head position information SEI messages are present that have more than one value of head_motion_info_id, this may indicate that the information indicated by the different values of head_motion_info_id are alternatives that are provided for different purposes or that a cascading of correction to be applied in a sequential order (an order might be specified depending on the application). The value of head_position_info_id shall be in the range of 0 to 2^12 - 1, inclusive. )

head_motion_info_cancel_flag 이 1이면, 헤드 모션 인포메이션 SEI 메시지가 커런트 레이어에 적용되는 아웃풋 오더 내 이전의 헤드 포지션 인포메이션 SEI 메시지의 퍼시스턴스를 캔슬함을 나타낸다. head_motion_info_cancel_flag 이 0이면, 헤드 모션 인포메이션이 팔로우함을 나타낸다(equal to 1 indicates that the head motion information SEI message cancels the persistence of any previous head position information SEI message in output order that applies to the current layer. head_motion_info_cancel_flag equal to 0 indicates that head motion information follows. )

head_motion_info_persistence_flag 커런트 레이어를 위한 헤드 모션 인포메이션 SEI메시지의 퍼시스턴스를 기술한다(specifies the persistence of the head motion information SEI message for the current layer.) head_motion_info_persistence_flag 이 0이면, 커런트 디코딩된 픽쳐에만 헤드 모션 인포메이션이 적용되는 것을 나타낸다(head_motion_info_persistence_flag equal to 0 specifies that the head motion information applies to the current decoded picture only.)

픽쳐A가 커런트 픽쳐라고 하면, head_motion_info_persistence_flag 이 1이면, 헤드 모션 인포메이션 SEI 메시지가 다음 조건들이 트루가 될때까지 아웃풋 오더 내 커런트 레이어를 위해 퍼시스트한다:

커런트 레이어의 새로운 CLVS가 시작함. 비트스트림이 끝남. 커런트 레이어에 적용 가능한 헤드 모션 인포메이션 SEI메시지를 포함하는 엑세스 유닛 내 커런트 레이어 내 픽쳐B가 PicOrderCnt( picA )보다 큰 PicOrderCnt( picB )를 위한 아웃풋이다. 여기서 PicOrderCnt( picB ) and PicOrderCnt( picA )는 픽쳐A 및 픽쳐B를 위한 PicOrderCntVal 값들 각각이다(픽쳐B의 픽쳐 오더 카운트를 위한 디코딩 프로세스의 인보케이션 이후) (Let picA be the current picture. head_motion_info_persistence_flag to 1 specifies that the head motion information SEI message persists for the current layer in output order until any of the following conditions are true: A new CLVS of the current layer begins. The bitstream ends. A picture picB in the current layer in an access unit containing a head motion information SEI message that is applicable to the current layer is output for which PicOrderCnt( picB ) is greater than PicOrderCnt( picA ), where PicOrderCnt( picB ) and PicOrderCnt( picA ) are the PicOrderCntVal values of picB and picA, respectively, immediately after the invocation of the decoding process for the picture order count of picB.)

num_nested_boundaries_minus1 은 헤드 모션 바운더리의 네스팅 쉐입들의 개수를 나타낸다. num_nested_boundaries_minus1 이 1보다 큰 경우, 헤드 모션 바운더리들은 범위들(즉, 아우터모스트 바운더리로부터 인너모스트 바운더리)의 디센딩 오더 내 인폼된다((indicate the number of nesting shapes of head motion boundary. When num_nested_boundaries_minus1 is greater than 1, the head motion boundaries shall be informed in the descending order of the ranges, i.e., from the outermost boundary to the innermost boundary. )

head_motion_boundary_center_present_flag 이 1이면, i번째 헤드 모션 바운더리의 센터 로케이션이 SEI 메시지 내 존재함을 나타낸다. head_motion_boundary_center_present_flag이 0이면, i번째 헤드 모션 바운더리의 센터 로케이션이 SEI메시지에 존재하지 않음을 나타낸다. 애플리케이션들에 따라서, head_motion_boundary_center_present_flag 이 0이면, i번째 헤드 모션 바운더리으 센터가 XYZ 코디네이트 내 (0,0,0) 또는 앵커 뷰잉 포지션의 센터와 동일함을 나타낸다. num_nested_boundaries_minus1 이 1보다 크면, head_motion_boundary_center_present_flag 은 0이고, 이는 i번재 헤드 모션 바운더리의 센터가 아우터모스트 바운더리의 센터(즉, 0번째 헤드 모션 바운더리의 센터)와 동일함을 나타낸다. head_motion_boundary_rotation_flag 이 1이면 i번재 헤드 모션 바운더리의 요, 피치, 및 롤 로테이션이 SEI메시지에 존재함을 나타낸다. head_motion_boundary_rotation_flag 이 0이면 i번째 헤드 모션 바운더리의 요, 피치, 및 롤 로테이션이 (0,0,0) 또는 앵커 뷰잉 포지션의 로테이션의 로케이션과 동일함을 나타낸다((equal to 1 indicate that the center location of the i-th head motion boundary is present in the SEI message. head_motion_boundary_center_present_flag equal to 0 indicate that the center location of the i-th head motion boundary is not present in the SEI message. Depending on the applications, head_motion_boundary_center_present_flag equal to 0 could indicate that the center of the i-th head motion boundary is identical to the center of the anchor viewing postion or (0,0,0) in XYZ coordinate.

When num_nested_boundaries_minus1 is greater than 1, head_motion_boundary_center_present_flag equal to 0 could indicate that the center of the i-th head motion boundary is identical to the center of the outermost boundary, i.e., the center of the 0-th head motion boundary. head_motion_boundary_rotation_flag equal to 1 indicate that the yaw, pitch, and roll rotation of the i-th head motion boundary is present in the SEI message. head_motion_boundary_rotation_flag equal to 0 indicate that the yaw, pitch, and roll rotation of the i-th head motion boundary is not present in the SEI message. Depending on the applications, head_motion_boundary_rotation_flag equal to 0 could indicate that the yaw, pitch, and roll roation of the i-th head motion boundary is (0, 0, 0) or identical to the rotation of the rotation of anchor viewing position. )

num_nested_boundaries_minus1이 1보다 크고 head_motion_boundary_rotation_flag 이 0이면, i번째 헤드 모션 바운더리의 요, 피치, 롤 로테이션이 아우터모스트 바운더리(즉, 0번째 헤드 모션 바운더리의 요, 피치, 및 롤 각각)의 요, 피치, 및 롤과 동일함을 나타낸다(When num_nested_boundaries_minus1 is greater than 1, head_motion_boundary_rotation_flag equal equal to 0 could indicate that the yaw, pitch, and roll roation of the i-th head motion boundary is identical to the yaw, pitch, and roll of the outermost boundary, i.e., the yaw, pitch, and roll of the 0-th head motion boundary, respectively. )

head_motion_boundary_asymmetric_flag i번째 헤드 모션 바운더리의 쉐이프가 센터에 관핸 시멘트리하지 않음ㅇ르 나타낸다. head_motion_boundary_asymmetric_flag 이 0이면, i번째 헤드 모션 바운더리의 쉐이프가 센터에 관해 시멘트릭함을 나타낸다(equal to 1 indicate that the shape of the i-th head motion boundary is not symmetric in terms of the center. head_motion_boundary_asymmetric_flag equal to 0 indicate that the shape of the i-th head motion boundary is symmetric in terms of the center. )

head_motion_boundary_type 헤드 모션 바운더리의 쉐이프 타입을 나타낸다. head_motion_boundary_type이 0이면, 언디파인드이다. head_motion_boundary_type 이 1이면 스피어이다. head_motion_boundary_type 이 2이면 파라볼로이드 쉐이프이다. head_motion_boundary_type 이 3이면 큐브이다. head_motion_boundary_type 이 4이면 렉텡귤러 프리즘이다. head_motion_boundary_type 이 5이면 스페로이드이다. head_motion_boundary_type 이 6이면 트리액시얼 엘립소이드이다. head_motion_boundary_type 이 15이면 버텍스들에 의해 정의되는 쉐이프이다. head_motion_boundary_type 의 다른 값들은 퓨처 유즈를 위해 프리저브된다(specifies the shape type of the head motion boundary. head_motion_boundary_type equal to 0 indicate undefined head_motion_boundary_type equal to 1 indicate the sphere. head_motion_boundary_type equal to 2 indicate the paraboloid shape. head_motion_boundary_type equal to 3 indicate the cube. head_motion_boundary_type equal to 4 indicate the rectangular prism. head_motion_boundary_type equal to 5 indicate the spheroid. head_motion_boundary_type equal to 6 indicate the tri-axial ellipsoid. head_motion_boundary_type equal to 15 indicate a shape defined by vertexes. Other values of head_motion_boundary_type is preserved for future use. )

head_motion_boundary_radius_min and head_motion_boundary_radius_max 은 바운더리의 센터로부터 헤드 모션 바운더리의 미니멈 및 맥시멈 레이우스를 나타낸다. head_motion_boudnary_type 이 1이 아니면, head_motion_boundary_radius_min and head_motion_boundary_radius_max 은 근사치의 바운더리일 수 있다(indicate the minimum and maximum radius of the head motion boundary from the center of the boundary. When head_motion_boudnary_type not equal to 1, head_motion_boundary_radius_min and head_motion_boundary_radius_max could provide approximated boundary.)

head_motion_boundary_center_x, head_motion_boundary_center_y and head_motion_boundary_center_z 디코딩된 픽쳐에 대응하는 뷰잉 포지션의 i번째 헤드 모션 바운더리의 센터의 (x, y, z) 로케이션을 2의 마이너스16승 밀리미터들 단위로 나타낸다. head_motion_boundary_x, head_motion_boundary_y and head_motion_boundary_z 은 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 32768 * 2^16 (i.e., 2147483648), 포함의 범위를 가진다(indicate the (x,y,z) location of center of the i-th head motion boundary of the viewing position corresponding to the decoded picture in the units of 2^-16 millimeters, respectively. The head_motion_boundary_x, head_motion_boundary_y and head_motion_boundary_z shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive.)

head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll i번째 헤드 모션 바운더리 쉐이프의 요, 피치, 및 롤 로테이션 앵글들을 2의 마이너스16승 디그리들 단위로 각각 나타낸다. head_motion_boundary_rotation_yaw 의 값은 -180 * 2^16 (i.e., -11796480) 내지 180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다. head_motion_boundary_rotation_pitch 의 값은 -90 * 2^16 (i.e., -5898240) 내지 90 * 2^16 (i.e., 5898240), 포함의 범위를 가진다. head_motion_boundary_rotation_roll 의 값은 -180 * 2^16 (i.e., -11796480) 내지 180 * 2^16 - 1 (i.e., 11796479), 포함의 범위를 가진다(indicate the yaw, pitch, and roll rotation angles of the i-th head motion boundary shape in units of 2^-16 degrees, repectively. The value of head_motion_boundary_rotation_yaw shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive, the value of head_motion_boundary_rotation_pitch shall be in the range of -90 * 2^16 (i.e., -5898240) to 90 * 2^16 (i.e., 5898240), inclusive, and the value of head_motion_boundary_rotation_roll shall be in the range of -180 * 2^16 (i.e., -11796480) to 180 * 2^16 - 1 (i.e., 11796479), inclusive. )

애플리케이션들에 따라서, head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll 은 각각 아지무스, 엘리베이션, 및 틸트를 나타내는데 사용될 수 있다. 또한, head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll 은 오리엔테이션을 나타낼 수 있다(Depending on the applications, head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll could be used to indicate azimuth, elevation, and tilt, respectively. Also, head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll could represent the orientation. )

head_motion_boundary_radius i번째 헤드 모션 바운더리의 래디우스를 나타낸다. 래디우스는 센터로부터 아우터모스트 바운더리의 디스턴스를 나타낸다. head_motion_boundary_radius 의 범위는 0 내지65 536 * 2^16 - 1(i.e., 4 294 967 295), 포함의 범위이다(indicate the radius of the i-th head motion boundary. The radius indicate the distance from the center to the outermost boundary. The range of head_motion_boundary_radius shall be in the range of 0 to to 65 536 * 2^16 - 1(i.e., 4 294 967 295), inclusive.)

head_motion_boundary_param_alpha, head_motion_boundary_param_beta, and head_motion_boundary_z_max specify the parameter values of paraboloid shape of the i-th head motion boundary. The ranges of head_motion_boundary_param_alpha, head_motion_boundary_param_beta, and head_motion_boundary_z_max shall be in the range of 0 to to 65 536 * 2^16 - 1(i.e., 4 294 967 295), inclusive.

head_motion_boundary_positive_x_axis, head_motion_boundary_negative_x_axis, head_motion_boundary_positive_y_axis, head_motion_boundary_negative_y_axis, head_motion_boundary_positive_z_axis, and head_motion_boundary_negative_z_axis 포지티브 및 네거티트 방향들의 x, y, z 축 방향의 헤드 모션 바운더리의 범위를 2의 마이너스16승 밀리미터들 단위로 각각 나타낸다. 여기서 xyz 축들은 head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll for yaw, pitch, and roll 각각 로테이트된 로컬 코디네이트이다. head_motion_boundary_positive_x_axis, head_motion_boundary_negative_x_axis, head_motion_boundary_positive_y_axis, head_motion_boundary_negative_y_axis, head_motion_boundary_positive_z_axis, and head_motion_boundary_negative_z_axis의 값은 0 내지 65 536 * 2^16 - 1(i.e., 4 294 967 295), 포함의 범위를 가진다(indicate the range of the head motion boundary in the directions of x, y, and z axis of positive and negative directions in the units of 2^-16 millimeters, respectively, where the XYZ axises are local coordinated rotated in the amout of head_motion_boundary_rotation_yaw, head_motion_boundary_rotation_pitch, and head_motion_boundary_rotation_roll for yaw, pitch, and roll, respectively. The value of head_motion_boundary_positive_x_axis, head_motion_boundary_negative_x_axis, head_motion_boundary_positive_y_axis, head_motion_boundary_negative_y_axis, head_motion_boundary_positive_z_axis, and head_motion_boundary_negative_z_axis shall be in the range of 0 to 65 536 * 2^16 - 1(i.e., 4 294 967 295), inclusive.)

head_motion_boundary_param_a, head_motion_boundary_param_b, and head_motion_boundary_param_c 스페로이드 또는 트리-엑시스 엘립소이드 쉐이프의 i번째 헤드 모션 바운더리의 파라미터 값들을 나타낸다. head_motion_boundary_param_a, head_motion_boundary_param_b, and head_motion_boundary_param_c 은 0 내지 65 536 * 2^16 - 1(i.e., 4 294 967 295), 포함의 범위를 가진다(specify the parameter values of the i-th head motion boundary of spheroid or tri-axis ellipsoid shape. The ranges of head_motion_boundary_param_a, head_motion_boundary_param_b, and head_motion_boundary_param_c shall be in the range of 0 to to 65 536 * 2^16 - 1(i.e., 4 294 967 295), inclusive.)

head_motion_boundary_symmetry_axis 센터가 (0, 0, 0) 인 경우 스페로이드 시멘트리한 축을 나타낸다. head_motion_boundary_symmetry_axis 이 0인 경우, 시멘트리 축은 센터가 (0, 0, 0)인 x축으로서 인디케이팅된다. head_motion_boundary_symmetry_axis 이 1인 경우, 시멘트리 축은 센터가 (0,0,0)인 y축으로 인디케이팅된다. head_motion_boundary_symmetry_axis 가 2인 경우 시멘트리 축은 센터가 (0,0,0)인 z축으로 인디케이팅된다. head_motion_boundary_symmetry_axis 의 다른 값들은 리저브드된다(specify the axis that the spheroid is symmetric when the center is (0,0,0). When head_motion_boundary_symmetry_axis equal to 0, the symmetry axis is indicated as x axis when the center is (0,0,0). When head_motion_boundary_symmetry_axis equal to 1, the symmetry axis is indicated as y axis when the center is (0,0,0). When head_motion_boundary_symmetry_axis equal to 2, the symmetry axis is indicated as z axis when the center is (0,0,0). The other values of head_motion_boundary_symmetry_axis are reserved. )

num_boundary_vertex_minus4 플러스 4는 헤드 모션 바운더리를 기술하는 버텍스들의 개수를 나타낸다(plus 4 specifies the number of vertexes that describes the head motion boundary. )

boundary_vertex_x, boundary_vertex_y, and boundary_vertex_z 은ㅇ xyz코디네이트 내 헤드 모션 바운더리를 2의 마이너스16승 밀리미터들 단위로 기술하는 버텍스의 로케이션을 나타낸다. boundary_vertex_x, boundary_vertex_y, and boundary_vertex_z 은 -32768 * 2^16 - 1 (i.e., -2147483647) 내지 32768 * 2^16 (i.e., 2147483648), 포함의 범위를 가진다. 애플리케이션들에서, 버텍스들은 뷰포인트에 속하는 뷰잉 포지션들의 서브셋이 될 수 있다(specifies the location of a vertex that describes the head motion boundary in XYZ coordinate in the units of 2^-16 millimeters, respectively. The boundary_vertex_x, boundary_vertex_y, and boundary_vertex_z shall be in the range of -32768 * 2^16 - 1 (i.e., -2147483647) to 32768 * 2^16 (i.e., 2147483648), inclusive. In some applications, the vertexes could be a subset of the viewing positions belongs to a viewpoint. )

본 발명의 실시예들에 따른 비디오 송신 방법은 S35001 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 단계, S35002 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 단계, S35003 프레딕션 에러 프로세싱된 픽쳐를 에러-프론 리젼 맵에 기초하여 패치 패킹하는 단계, 및/또는S35004 패킹된 패치를 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 단계를 포함한다.

방법S35001 관련하여, 본 발명의 실시예들에 따른 비디오 송신 장치는, 예를 들어, 타겟 뷰 프레딕션 프로세서 또는 타겟 뷰 프레딕션 컨트롤러는 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션한다. 구체적인 절차는 도22에서 상술한 바와 같다. 또한, 타겟 뷰 프레딕션은 도23에서 설명한 바와 같이 추가적으로 수행될 수 있다.

방법S35002 관련하여, 본 발명의 실시예들에 따른 비디오 송신 장치는, 예를 들어, 프레딕션 에러 프로세서 또는 프레딕션 에러 컨트롤러는 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리한다. 구체적인 절차는 도22에서 상술한 바와 같다. 또한, 프레딕션 에러 프로세싱은 도24 내지 도25에서 설명한 바와 같이 추가적으로 수행될 수 있다.

방법S35003 관련하여, 본 발명의 실시예들에 따른 비디오 송신 장치에 의해서, 예를 들어, 패치 패킹 프로세서 또는 패치 패킹 컨트롤러는 프레딕션 에러 프로세싱된 픽쳐를 에러-프론 리젼 맵에 기초하여 패치 패킹한다. 구체적인 절차는 도22에서 상술한 바와 같다. 또한, 패치 패킹 프로세싱은 도26에서 설명한 바와 같이 추가적으로 수행될 수 있다.

방법S35004 관련하여, 본 발명의 실시예들에 따른 비디오 송신 장치는, 예를 들어, 인코더는 패킹된 패치를 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩한다. 구체적인 절차는 도22에서 설명한 바와 같다.

본 발명의 실시예들에 따른 비디오 수신 방법은 본 발명의 실시예들에 따른 비디오 송신 방법의 역과정을 따를 수 있다.

전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 소프트웨어, 프로세서, 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서, 소프트웨어, 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블락/유닛들은 프로세서, 소프트웨어, 하드웨어로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.

설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시 예들을 병합하여 새로운 실시 예를 구현하도록 설계하는 것도 가능하다. 그리고, 통상의 기술자의 필요에 따라, 이전에 설명된 실시 예들을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 설계하는 것도 본 발명의 권리범위에 속한다.

본 발명에 따른 장치 및 방법은 상술한 바와 같이 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상술한 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

한편, 본 발명이 제안하는 방법을 네트워크 디바이스에 구비된, 프로세서가 읽을 수 있는 기록매체에, 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한, 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한, 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.

본 발명의 사상이나 범위를 벗어나지 않고 본 발명에서 다양한 변경 및 변형이 가능함은 당업자에게 이해된다. 따라서, 본 발명은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 본 발명의 변경 및 변형을 포함하는 것으로 의도된다.

본 명세서에서 장치 및 방법 발명이 모두 언급되고, 장치 및 방법 발명 모두의 설명은 서로 보완하여 적용될 수 있다.

이 문서에서 /와 ,는 및/또는으로 해석된다. 예를 들어, A/B는 A 및/또는 B로 해석되고, A, B는 A 및/또는 B로 해석된다. 추가적으로, A/B/C는 A, B 및/또는 C 중 적어도 하나를 의미한다. 또한, A, B, C도 A, B 및/또는 C 중 적어도 하나를 의미한다. (In this document, the term / and , should be interpreted to indicate and/or. For instance, the expression A/B may mean A and/or B. Further, A, B may mean A and/or B. Further, A/B/C may mean at least one of A, B, and/or C. Also, A/B/C may mean at least one of A, B, and/or C.)

추가적으로, 이 문서에서 또는는 및/또는으로 해석된다. 예를 들어, A 또는 B은, 1) A 만을 의미하고, 2) B만을 의미하거나, 3) A 및 B를 의미할 수 있다. 달리 표현하면, 본 문서의 또는은 추가적으로 또는 대체적으로(additionally or alternatively)를 의미할 수 있다. (Further, in the document, the term or should be interpreted to indicate and/or. For instance, the expression A or B may comprise 1) only A, 2) only B, and/or 3) both A and B. In other words, the term or in this document should be interpreted to indicate additionally or alternatively.)

다양한 실시예가 본 발명을 실시하기 위한 최선의 형태에서 설명되었다.

본 발명은 VR 관련 분야에서 이용된다.

본 발명의 사상이나 범위를 벗어나지 않고 본 발명에서 다양한 변경 및 변형이 가능함은 당업자에게 자명하다. 따라서, 본 발명은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 본 발명의 변경 및 변형을 포함하는 것으로 의도된다.

Claims

앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 타겟 뷰 프레딕션 컨트롤러(Target view prediction controller);

상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 프레딕션 에러 컨트롤러(Prediction error controller), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨;

상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 패치 패킹 컨트롤러(Patch packing controller); 및

상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 인코더(Encoder); 를 포함하는,

비디오 송신 장치.
제1항에 있어서,

상기 타겟 뷰 프레딕션 컨트롤러는,

상기 타겟 뷰잉 포지션 인포메이션, 상기 앵커 뷰잉 포지션의 뎁스 또는 상기 타겟 뷰잉 포지션의 뎁스 중 적어도 하나에 기초하여 상기 앵커 뷰잉 포지션의 상기 텍스쳐 픽쳐 또는 상기 뎁스 픽쳐의 뎁스 레이어를 구분하고(Target view depth layering),

상기 앵커 뷰잉 포지션의 뎁스 및 상기 타겟 뷰잉 포지션의 뎁스에 기초하여 상기 구분된 뎁스 레이어를 프레딕션(Prediction)하고,

상기 프레딕션된 뎁스 레이어를 통합하여 상기 타겟 뷰잉 포지션에 대한 프레딕션 픽쳐를 생성(Picture generation)하는,

비디오 송신 장치.
제1항에 있어서,

상기 프레딕션 에러 컨트롤러(Prediction error controller)는

상기 프레딕션된 픽쳐를 상기 소스 픽쳐에 기반하여 프레딕션 에러를 감지하고(Prediction error detection), 상기 프레딕션 에러는 상기 소스 픽쳐로부터 상기 프레딕션 픽쳐를 서브트랙션(subtraction)하여 추정되고,

상기 프레딕션 에러에 대응하는 에러 픽쳐로부터 쓰레드홀(threshold) 값에 기반하여 에스티메이션 에러를 획득하고(Estimation error detection), 상기 에스티메이션 에러에 대한 위치 정보를 포함하는 에스티메이션 에러 맵(estimation error map)을 생성하고,

상기 프레딕션 에러로부터 홀(hole)에 기반하여 오클루션 에러를 획득하고(Occlusion error detection), 상기 오클루션 에러에 대한 위치 정보를 포함하는 오클루션 에러 맵(occlusion error map)을 생성하는,

비디오 송신 장치.
제3항에 있어서,

상기 에스티메이션 에러 맵 또는 상기 오클루션 에러 맵 중 적어도 하나에 기반하여 상기 타겟 뷰잉 포지션에 대한 프레딕션에 관련된 에러 발생 영역(error-prone region)을 감지하고, 상기 에러 발생 영역에 대한 위치 정보를 포함하는 에러 발생 영역 맵(error-prone region map)을 생성하고,

상기 에러 발생 영역 맵에 가드 밴드를 추가하거나 또는 상기 에러 발생 영역 맵을 확장하는 포스트-프로세싱을 하고(error-prone region map post-processing),

상기 에러 발생 영역 맵 및 상기 소스 픽쳐에 기반하여 에러 발생의 영역에 관련된 픽쳐를 생성하는(Error-region picture generation),

비디오 송신 장치.
제1항에 있어서,

상기 프레딕션 에러 컨트롤러(Prediction error controller)는

상기 타겟 뷰잉 포지션의 상기 프레딕션된 픽쳐를 상기 타겟 뷰잉 포지션의 상기 소스 픽쳐에 기반하여 에스티메이션 에러를 감지하고(estimation error detection), 상기 타겟 뷰잉 포지션의 서브트랙트된 픽쳐를 생성하고,

상기 프레딕션된 픽쳐로부터 오클루션 에러를 감지하고(occlusion error detection), 상기 오클루션 에러를 나타내는 오클루션 리젼 맵을 생성하고,

상기 서브트랙트된 픽쳐 및 상기 오클루션 리젼 맵에 기반하여 프레딕션 에러 및 오클루션 에러를 포함하는 에러의 종류를 분류하고(data classification),

상기 프레딕션 에러에 대한 픽쳐에 기반하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러의 리젼을 감지하고(estimation error region detection), 상기 프레딕션 에러의 리젼을 나타내는 에러-프론 리젼 맵을 생성하고,

상기 프레딕션 에러의 값이 일정값보다 큰 경우, 상기 프레딕션 에러를 상기 소스 픽쳐로 대체하고(estimation error substitution),

상기 오클루션 리젼 맵 및 상기 에러-프론 리젼 맵에 기반하여 에러 발생 영역을 나타내는 에러-프론 리젼 맵을 생성하고,

상기 대체된 소스 픽쳐 및 오클루션 리젼의 소스 픽쳐에 기반하여 에러-프론 리젼 픽쳐를 생성하는(error-prone region picture generation),

비디오 송신 장치.
제1항에 있어서,

상기 패치 패킹 컨트롤러는,

상기 에러-프로 리젼 맵에 기반하여 상기 프레딕션 에러 프로세싱된 픽쳐의 에러-프론 리젼 픽쳐(error-prone region picture)를 구분하는 리젼을 클러스터링하고(region clustering), 상기 리젼을 나타내는 클러스터링 맵(clustering map)을 생성하고,

상기 소스 픽쳐 및 상기 클러스터링 맵에 기반하여 상기 에러-프론 리젼 픽쳐로부터 패치를 생성하고(patch generation),

상기 패치를 이용하여 하나 또는 하나 이상의 픽쳐를 생성하는(patch packing),

비디오 송신 장치.
제1항에 있어서,

상기 패치 패킹 컨트롤러는,

상기 패치에 포함된 빈 공간을 상기 소스 픽쳐에 대한 데이터로 채우거나, 또는

상기 패치에 가드 밴드(guard band)를 추가하는 처리를 하는(patch generation post-processing),

비디오 송신 장치.
앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐로부터 타겟 뷰잉 포지션 인포메이션에 기초하여 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 단계(Target view perdiction);

상기 타겟 뷰잉 포지션의 소스 픽쳐에 기초하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러를 처리하는 단계(Prediction error), 상기 프레딕션된 픽쳐 및 소스 픽쳐에 기초하여 에러-프론 리젼 맵이 생성됨;

상기 프레딕션 에러 프로세싱된 픽쳐를 상기 에러-프론 리젼 맵에 기초하여 패치 패킹하는 단계(Patch packing); 및

상기 패킹된 패치를 상기 앵커 뷰잉 포지션의 텍스쳐 픽쳐 또는 뎁스 픽쳐에 기초하여 인코딩하는 단계(Encoding); 를 포함하는,

비디오 송신 장치.
제8항에 있어서,

상기 타겟 뷰잉 포지션에 대한 픽쳐를 프레딕션하는 단계는,

상기 타겟 뷰잉 포지션 인포메이션, 상기 앵커 뷰잉 포지션의 뎁스 또는 상기 타겟 뷰잉 포지션의 뎁스 중 적어도 하나에 기초하여 상기 앵커 뷰잉 포지션의 상기 텍스쳐 픽쳐 또는 상기 뎁스 픽쳐의 뎁스 레이어를 구분하고(Target view depth layering),

상기 앵커 뷰잉 포지션의 뎁스 및 상기 타겟 뷰잉 포지션의 뎁스에 기초하여 상기 구분된 뎁스 레이어를 프레딕션(Prediction)하고,

상기 프레딕션된 뎁스 레이어를 통합하여 상기 타겟 뷰잉 포지션에 대한 프레딕션 픽쳐를 생성(Picture generation)하는,

비디오 송신 방법.
제8항에 있어서,

상기 프레딕션 에러를 처리하는 단계는,

상기 프레딕션된 픽쳐를 상기 소스 픽쳐에 기반하여 프레딕션 에러를 감지하고(Prediction error detection), 상기 프레딕션 에러는 상기 소스 픽쳐로부터 상기 프레딕션 픽쳐를 서브트랙션(subtraction)하여 추정되고,

상기 프레딕션 에러에 대응하는 에러 픽쳐로부터 쓰레드홀(threshold) 값에 기반하여 에스티메이션 에러를 획득하고(Estimation error detection), 상기 에스티메이션 에러에 대한 위치 정보를 포함하는 에스티메이션 에러 맵(estimation error map)을 생성하고,

상기 프레딕션 에러로부터 홀(hole)에 기반하여 오클루션 에러를 획득하고(Occlusion error detection), 상기 오클루션 에러에 대한 위치 정보를 포함하는 오클루션 에러 맵(occlusion error map)을 생성하는,

비디오 송신 방법.
제10항에 있어서,

상기 에스티메이션 에러 맵 또는 상기 오클루션 에러 맵 중 적어도 하나에 기반하여 상기 타겟 뷰잉 포지션에 대한 프레딕션에 관련된 에러 발생 영역(error-prone region)을 감지하고, 상기 에러 발생 영역에 대한 위치 정보를 포함하는 에러 발생 영역 맵(error-prone region map)을 생성하고,

상기 에러 발생 영역 맵에 가드 밴드를 추가하거나 또는 상기 에러 발생 영역 맵을 확장하는 포스트-프로세싱을 하고(error-prone region map post-processing),

상기 에러 발생 영역 맵 및 상기 소스 픽쳐에 기반하여 에러 발생의 영역에 관련된 픽쳐를 생성하는(Error-region picture generation),

비디오 송신 방법.
제8항에 있어서,

상기 프레딕션 에러를 처리하는 단계는

상기 타겟 뷰잉 포지션의 상기 프레딕션된 픽쳐를 상기 타겟 뷰잉 포지션의 상기 소스 픽쳐에 기반하여 에스티메이션 에러를 감지하고(estimation error detection), 상기 타겟 뷰잉 포지션의 서브트랙트된 픽쳐를 생성하고,

상기 프레딕션된 픽쳐로부터 오클루션 에러를 감지하고(occlusion error detection), 상기 오클루션 에러를 나타내는 오클루션 리젼 맵을 생성하고,

상기 서브트랙트된 픽쳐 및 상기 오클루션 리젼 맵에 기반하여 프레딕션 에러 및 오클루션 에러를 포함하는 에러의 종류를 분류하고(data classification),

상기 프레딕션 에러에 대한 픽쳐에 기반하여 상기 프레딕션된 픽쳐에 대한 프레딕션 에러의 리젼을 감지하고(estimation error region detection), 상기 프레딕션 에러의 리젼을 나타내는 에러-프론 리젼 맵을 생성하고,

상기 프레딕션 에러의 값이 일정값보다 큰 경우, 상기 프레딕션 에러를 상기 소스 픽쳐로 대체하고(estimation error substitution),

상기 오클루션 리젼 맵 및 상기 에러-프론 리젼 맵에 기반하여 에러 발생 영역을 나타내는 에러-프론 리젼 맵을 생성하고,

상기 대체된 소스 픽쳐 및 오클루션 리젼의 소스 픽쳐에 기반하여 에러-프론 리젼 픽쳐를 생성하는(error-prone region picture generation),

비디오 송신 방법.
제8항에 있어서,

상기 패치 패킹하는 단계는,

상기 에러-프로 리젼 맵에 기반하여 상기 프레딕션 에러 프로세싱된 픽쳐의 에러-프론 리젼 픽쳐(error-prone region picture)를 구분하는 리젼을 클러스터링하고(region clustering), 상기 리젼을 나타내는 클러스터링 맵(clustering map)을 생성하고,

상기 소스 픽쳐 및 상기 클러스터링 맵에 기반하여 상기 에러-프론 리젼 픽쳐로부터 패치를 생성하고(patch generation),

상기 패치를 이용하여 하나 또는 하나 이상의 픽쳐를 생성하는(patch packing),

비디오 송신 방법.
제8항에 있어서,

상기 패치 패킹하는 단계는,

상기 패치에 포함된 빈 공간을 상기 소스 픽쳐에 대한 데이터로 채우거나, 또는

상기 패치에 가드 밴드(guard band)를 추가하는 처리를 하는(patch generation post-processing),

비디오 송신 방법.