WO2020071703A1

WO2020071703A1 - 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및/또는 포인트 클라우드 데이터 수신 방법

Info

Publication number: WO2020071703A1
Application number: PCT/KR2019/012719
Authority: WO
Inventors: 이장원; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2018-10-01
Filing date: 2019-09-30
Publication date: 2020-04-09
Also published as: US20200153885A1

Abstract

실시예들에 따른 포인트 클라우드 데이터 송신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 단계; 상기 포인트 클라우드의 속성에 관련된 텍스쳐 이미지를 생성하는 단계; 상기 포인트 클라우드의 패치에 관련된 어큐판시 맵을 생성하는 단계; 상기 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 생성하는 단계; 및/또는 상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵 및 상기 어실러리 패치 정보를 멀티플렉싱하는 단계; 를 포함한다. 실시예들에 따른 포인트 클라우드 데이터 수신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지, 상기 포인트 클라우드의 속성에 관련된 텍스쳐 이미지, 상기 포인트 클라우드의 패치에 관련된 어큐판시 맵 및 상기 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 디멀티플렉싱하는 단계; 상기 지오메트리 이미지를 디컴프레션하는 단계; 상기 텍스쳐 이미지를 디컴프레션하는 단계; 상기 어큐판시 맵을 디컴프레션하는 단계; 및/또는 상기 어실러리 패치 정보를 디컴프레션하는 단계;를 포함한다.

Description

포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및/또는 포인트 클라우드 데이터 수신 방법

실시예들은 사용자에게 VR (Virtual Reality, 가상현실), AR (Augmented Reality, 증강현실), MR (Mixed Reality, 혼합현실), 및 자율 주행 서비스 등의 다양한 서비스를 제공하기 위하여 Point Cloud 콘텐츠를 제공하는 방안을 제공한다.

포인트 클라우드는 3D공간 상의 포인트들의 집합이다. 3D공간 상의 포인트들의 개수가 많아서 포인트 클라우드 데이터를 생성하기 어려운 문제점이 있다.

포인트 클라우드의 데이터를 전송하고 수신하기 위해서 많은 처리량이 요구되는 문제점이 있다.

실시예들에 따른 기술적 과제는, 전술한 문제점 등을 헤결하기 위해서, 포인트 클라우드를 효율적으로 송수신하기 위한 포인트 클라우드 데이터 전송 장치, 전송 방법, 포인트 클라우드 데이터 수신 장치 및 수신 방법을 제공하는데 있다.

실시예들에 따른 기술적 과제는, 지연시간(latency) 및 인코딩/디코딩 복잡도를 해결하기 위한 포인트 클라우드 데이터 전송 장치, 전송 방법, 포인트 클라우드 데이터 수신 장치 및 수신 방법을 제공하는데 있다.

다만, 전술한 기술적 과제만으로 제한되는 것은 아니고, 본 문서 전체 내용에 기초하여 당업자가 유추할 수 있는 다른 기술적 과제로 실시예들의 권리범위가 확장될 수 있다.

상술한 목적 및 다른 이점을 달성하기 위해서 실시예들에 따른 포인트 클라우드 데이터 송신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 단계; 상기 포인트 클라우드의 속성에 관련된 텍스쳐 이미지를 생성하는 단계; 상기 포인트 클라우드의 패치에 관련된 어큐판시 맵을 생성하는 단계; 상기 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 생성하는 단계; 및/또는 상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵 및 상기 어실러리 패치 정보를 멀티플렉싱하는 단계; 를 포함한다.

실시예들에 따른 포인트 클라우드 데이터 수신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지, 상기 포인트 클라우드의 속성에 관련된 텍스쳐 이미지, 상기 포인트 클라우드의 패치에 관련된 어큐판시 맵 및 상기 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 디멀티플렉싱하는 단계; 상기 지오메트리 이미지를 디컴프레션하는 단계; 상기 텍스쳐 이미지를 디컴프레션하는 단계; 상기 어큐판시 맵을 디컴프레션하는 단계; 및/또는 상기 어실러리 패치 정보를 디컴프레션하는 단계;를 포함한다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법, 송신 장치, 포인트 클라우드 데이터 수신 방법, 수신 장치는 퀄리티 있는 포인트 클라우드 서비스를 제공할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법, 송신 장치, 포인트 클라우드 데이터 수신 방법, 수신 장치는 다양한 비디오 코덱 방식을 달성할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법, 송신 장치, 포인트 클라우드 데이터 수신 방법, 수신 장치는 자율주행 서비스 등 범용적인 포인트 클라우드 콘텐츠를 제공할 수 있다.

도면은 실시예들을 더욱 이해하기 위해서 포함되며, 도면은 실시예들에 관련된 설명과 함께 실시예들을 나타낸다.

도1 은 실시예들에 따른 360도 비디오 제공을 위한 전체 아키텍처를 도시한 도면이다.

도2 은 실시예들의 일 측면(aspect)에 따른 360도 비디오 전송 장치를 도시한 도면이다.

도3 은 실시예들의 다른 측면에 따른 360도 비디오 수신 장치를 도시한 도면이다.

도4 는 실시예들의 다른 실시예에 따른 360도 비디오 전송 장치/360도 비디오 수신 장치를 도시한 도면이다.

도5 는 실시예들의 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

도6 는 실시예들의 일 실시예에 따른 프로젝션 스킴들을 도시한 도면이다.

도7 은 실시예들의 일 실시예에 따른 타일(Tile)을 도시한 도면이다.

도8 은 실시예들의 일 실시예에 따른 360도 비디오 관련 메타데이터를 도시한 도면이다.

도9는 3DoF+ VR 시스템에서 추가적으로 정의되는 위치(viewpoint)와 시점(viewing position)를 나타낸다.

도10은 3DoF+ 시스템에 기반한 360도 비디오 신호처리 및 관련 전송장치/수신장치 구현 방법에 대해서 도시한다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

도15는 OMAF 구조를 나타낸다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

도17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

도18은 6DoF 비디오 서비스 제공을 위한 전송 장치의 구성을 나타낸다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

도20은 6 DoF 비디오 전송/수신 장치의 구성을 나타낸다.

도21은 6DoF 공간을 나타낸다.

도22는 실시예들에 따른 Point Cloud Compression 처리 일반을 나타낸다.

도23은 실시예들에 따른 Point Cloud 캡쳐 장비 배열 구성을 나타낸다.

도24는 실시예들에 따른 point cloud 및 geometry, texture image (non-padded)의 예시를 나타낸다.

도25는 실시예들에 따른 V-PCC 인코딩 프로세스를 나타낸다.

도26은 실시예들에 따른 서페이스(Surface)의 탄젠트 플레인(tangent plane) 및 노멀 벡터(normal vector)를 나타낸다.

도27은 실시예들에 따른 Point cloud의 bounding box를 나타낸다.

도28은 실시예들에 따른 Occupancy map에서의 개별 patch 위치 결정 방식을 나타낸다.

도29은 실시예들에 따른 normal, tangent, bitangent 축의 관계를 나타낸다.

도30는 실시예들에 따른 min mode에서의 d0, d1 구성 및 max mode에서의 d0, d1 구성을 나타낸다.

도31은 실시예들에 따른 EDD code의 예시를 나타낸다.

도32는 실시예들에 따른 인접점들의 color 값들을 이용한 recoloring을 나타낸다.

도33는 실시예들에 따른 block과 patch 맵핑을 위한 pseudo code 를 나타낸다.

도34는 실시예들에 따른 push-pull background filling을 나타낸다.

도35는 실시예들에 따른 4*4 크기의 block에 대해 가능한 traversal order의 예시를 나타낸다.

도36는 실시예들에 따른 best traversal order 선택의 예시를 나타낸다.

도37은 실시예들에 따른 2D video/image encoder 을 나타낸다.

도38은 실시예들에 따른 V-PCC decoding process 을 나타낸다.

도39는 실시예들에 따른 2D video/image decoder 을 나타낸다.

도40는 실시예들에 따른 송신단 동작 흐름도를 나타낸다.

도41는 실시예들에 따른 수신단 동작 흐름도를 나타낸다.

도42는 실시예들에 따른 V-PCC 기반 point cloud 데이터 저장 및 스트리밍을 위한 아키텍쳐를 나타낸다.

도43은 실시예들에 따른 point cloud 데이터 저장 및 전송 장치를 나타낸다.

도44는 실시예들에 따른 point cloud 데이터 수신 장치를 나타낸다.

도45는 실시예들에 따른 포인트 클라우드 데이터 전송 장치의 인코딩 과정을 나타낸다.

도46은 실시예들에 따른 디코딩 프로세스를 나타낸다.

도47은 실시예들에 따른 ISO BMFF 기반 Multiplexing/Demultiplexing을 나타낸다.

도48은 실시예들에 따른 runLength 및 best_traversal_order_index의 예시를 나타낸다.

도49는 실시예들에 따른 NALU stream 기반 Multiplexing/Demultiplexing을 나타낸다.

도50은 실시예들에 따른 PCC layer information을 나타낸다.

도51은 실시예들에 따른 PCC auxiliary patch information을 나타낸다.

도52는 실시예들에 따른 PCC occupancy map을 나타낸다.

도53은 실시예들에 따른 PCC group of frames header를 나타낸다.

도54는 실시예들에 따른 Geometry/Texture image packing을 나타낸다.

도55는 실시예들에 따른 geometry와 image component들 간의 배치 방법을 나타낸다.

도56은 실시예들에 따른 VPS extension을 나타낸다.

도57은 실시예들에 따른 pic_parameter_set을 나타낸다.

도58은 실시예들에 따른pps_pcc_auxiliary_patch_info_extension ()를 나타낸다.

도59는 실시예들에 따른pps_pcc_occupancy_map_extension()을 나타낸다.

도60은 실시예들에 따른 vps_pcc_gof_header_extension()을 나타낸다.

도61은 실시예들에 따른 pcc_nal_unit을 나타낸다.

도62는 실시예들에 따른 PCC 관련 구문의 예시를 나타낸다.

도63은 실시예들에 따른 PCC data interleaving 정보를 나타낸다.

도64는 실시예들에 따른 포인트 클라우드 데이터 전송 방법을 나타낸다.

도65는 실시예들에 따른 포인트 클라우드 데이터 수신 방법을 나타낸다.

실시예들의 바람직한 실시예에 대해 구체적으로 설명하며, 그 예는 첨부된 도면에 나타낸다. 첨부된 도면을 참조한 아래의 상세한 설명은 실시예들의 실시예에 따라 구현될 수 있는 실시예만을 나타내기보다는 실시예들의 바람직한 실시예를 설명하기 위한 것이다. 다음의 상세한 설명은 실시예들에 대한 철저한 이해를 제공하기 위해 세부 사항을 포함한다. 그러나 실시예들이 이러한 세부 사항 없이 실행될 수 있다는 것은 당업자에게 자명하다.

실시예들에서 사용되는 대부분의 용어는 해당 분야에서 널리 사용되는 일반적인 것들에서 선택되지만, 일부 용어는 출원인에 의해 임의로 선택되며 그 의미는 필요에 따라 다음 설명에서 자세히 서술한다. 따라서 실시예들은 용어의 단순한 명칭이나 의미가 아닌 용어의 의도된 의미에 근거하여 이해되어야 한다.

도 1 은 실시예들에 따른 360도 비디오 제공을 위한 전체 아키텍처를 도시한 도면이다.

실시예들은 사용자에게 VR (Virtual Reality, 가상현실)을 제공하기 위하여, 360도 컨텐츠를 제공하는 방안을 제안한다. VR 이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR 은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.

360도 컨텐츠는 VR 을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360도 오디오를 포함할 수 있다. 360도 비디오는 VR 을 제공하기 위해 필요한, 동시에 모든 방향(360도) 으로 캡쳐되거나 재생되는 비디오 내지 이미지 컨텐츠를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형(Spherical)면 상에 나타내어질 수 있다. 360도 오디오 역시 VR 을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360도 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360도 컨텐츠를 이용하여 VR 경험을 소비할 수 있다. 이하, 360도 콘텐트/비디오/이미지/오디오 등은 단위(도, degree)가 생략된 360 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있고 VR 콘텐트/비디오/이미지/오디오 등으로 사용될 수도 있다.

실시예들은 특히 360 비디오를 효과적으로 제공하는 방안을 제안한다. 360 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360 비디오가 캡쳐될 수 있다. 캡쳐된 360 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360 비디오가 사용자에게 제공될 수 있다.

구체적으로 360 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡쳐하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 (t1010) 과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 (t1010) 의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡쳐된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡쳐 과정에서 캡쳐와 관련된 메타데이터가 생성될 수 있다.

이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

준비 과정은 캡처된 이미지/비디오 및 캡쳐 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.

먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.

이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스트칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 매핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 (t1020) 과 같은 2D 이미지의 형태가 될 수 있다.

2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분되어질 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.

실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.

실시예에 따라 이 처리 과정은, 360 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다.2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.

실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.

전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.

프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 매핑, 프로젝션이라고 부를 수도 있다. 이 때 매핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.

렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 (t1030) 과 같은 형태를 가질 수 있다. 도시된 (t1030) 은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 (t1040) 과 같은 형태일 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 360 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360 비디오를 소비하는지, 360 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.

전술한 360 비디오 제공을 위한 전체 아키텍처 내에서, 캡쳐/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360 비디오 데이터라 부를 수 있다. 360 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.

도 2 은 실시예들의 일 측면(aspect)에 따른 360도 비디오 전송 장치를 도시한 도면이다.

일 측면에 따르면 실시예들은 360 비디오 전송 장치와 관련될 수 있다. 실시예들에 따른 360 비디오 전송 장치는 전술한 준비 과정 내지 전송 과정에 관련된 동작들을 수행할 수 있다. 실시예들에 따른 360 비디오 전송 장치는 데이터 입력부, 스티처(Stitcher), 프로젝션 처리부, 리전별 패킹 처리부(도시되지 않음), 메타데이터 처리부, (송신측) 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 엘레멘트로서 포함할 수 있다.

데이터 입력부는 캡쳐된 각 시점별 이미지/비디오 들을 입력받을 수 있다. 이 시점별 이미지/비디오 들은 하나 이상의 카메라들에 의해 캡쳐된 이미지/비디오들일 수 있다. 또한 데이터 입력부는 캡쳐 과정에서 발생된 메타데이터를 입력받을 수 있다. 데이터 입력부는 입력된 시점별 이미지/비디오들을 스티처로 전달하고, 캡쳐 과정의 메타데이터를 시그널링 처리부로 전달할 수 있다.

스티처는 캡쳐된 시점별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타데이터 처리부로부터 필요한 메타데이터를 전달받아 스티칭 작업에 이용할 수 있다. 스티처는 스티칭 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 스티칭 과정의 메타데이터에는 스티칭이 수행되었는지 여부, 스티칭 타입 등의 정보들이 있을 수 있다.

프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 프로젝션 처리부는 다양한 스킴(scheme)에 따라 프로젝션을 수행할 수 있는데, 이에 대해서는 후술한다. 프로젝션 처리부는 각 시점별 360 비디오 데이터의 해당 뎁스(depth)를 고려하여 매핑을 수행할 수 있다. 프로젝션 처리부는 필요한 경우 메타데이터 처리부로부터 프로젝션에 필요한 메타데이터를 전달받아 프로젝션 작업에 이용할 수 있다. 프로젝션 처리부는 프로젝션 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 프로젝션 처리부의 메타데이터에는 프로젝션 스킴의 종류 등이 있을 수 있다.

리전별 패킹 처리부(도시되지 않음)는 전술한 리전별 패킹 과정을 수행할 수 있다. 즉, 리전별 패킹 처리부는 프로젝션된 360 비디오 데이터를 리전별로 나누고, 각 리전들을 회전, 재배열하거나, 각 리전의 레졸루션을 변경하는 등의 처리를 수행할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정이며, 리전별 패킹이 수행되지 않는 경우, 리전별 패킹 처리부는 생략될 수 있다. 리전별 패킹 처리부는 필요한 경우 메타데이터 처리부로부터 리전별 패킹에 필요한 메타데이터를 전달받아 리전별 패킹 작업에 이용할 수 있다. 리전별 패킹 처리부는 리전별 패킹 과정에서 발생된 메타데이터를 메타데이터 처리부로 전달할 수 있다. 리전별 패킹 처리부의 메타데이터에는 각 리전의 회전 정도, 사이즈 등이 있을 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 리전별 패킹 처리부는 실시예에 따라 하나의 하드웨어 컴포넌트에서 수행될 수도 있다.

메타데이터 처리부는 캡처 과정, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타데이터들을 처리할 수 있다. 메타데이터 처리부는 이러한 메타데이터들을 이용하여 360 비디오 관련 메타데이터를 생성할 수 있다. 실시예에 따라 메타데이터 처리부는 360 비디오 관련 메타데이터를 시그널링 테이블의 형태로 생성할 수도 있다. 문맥에 따라 360 비디오 관련 메타데이터는 메타데이터 또는 360 비디오 관련 시그널링 정보라 불릴 수도 있다. 또한 메타데이터 처리부는 획득하거나 생성한 메타데이터들을 필요에 따라 360 비디오 전송 장치의 내부 엘레멘트들에 전달할 수 있다. 메타데이터 처리부는 360 비디오 관련 메타데이터가 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달할 수 있다.

데이터 인코더는 2D 이미지 상에 프로젝션된 360 비디오 데이터 및/또는 리전별 패킹된 360 비디오 데이터를 인코딩할 수 있다. 360 비디오 데이터는 다양한 포맷으로 인코딩될 수 있다.

인캡슐레이션 처리부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 파일 등의 형태로 인캡슐레이션할 수 있다. 여기서 360 비디오 관련 메타데이터는 전술한 메타데이터 처리부로부터 전달받은 것일 수 있다. 인캡슐레이션 처리부는 해당 데이터들을 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인캡슐레이션 처리부는 실시예에 따라 360 비디오 관련 메타데이터를 파일 포맷 상에 포함시킬 수 있다. 360 관련 메타데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나 파일 내에서 별도의 트랙내의 데이터로 포함될 수 있다. 실시예에 따라, 인캡슐레이션 처리부는 360 비디오 관련 메타데이터 자체를 파일로 인캡슐레이션할 수 있다.전송 처리부는 파일 포맷에 따라 인캡슐레이션된 360 비디오 데이터에 전송을 위한 처리를 가할 수 있다. 전송 처리부는 임의의 전송 프로토콜에 따라 360 비디오 데이터를 처리할 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리를 포함할 수 있다. 실시예에 따라 전송 처리부는 360 비디오 데이터 뿐 아니라, 메타데이터 처리부로부터 360 비디오 관련 메타데이터를 전달받아, 이 것에 전송을 위한 처리를 가할 수도 있다.

전송부는 전송 처리된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 방송망 및/또는 브로드밴드를 통해 전송할 수 있다. 전송부는 방송망을 통한 전송을 위한 엘레멘트 및/또는 브로드밴드를 통한 전송을 위한 엘레멘트를 포함할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 일 실시예에 의하면, 360 비디오 전송 장치는 데이터 저장부(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 데이터 저장부는 인코딩된 360 비디오 데이터 및/또는 360 비디오 관련 메타데이터를 전송 처리부로 전달하기 전에 저장하고 있을 수 있다. 이 데이터들이 저장되는 형태는 ISOBMFF 등의 파일 형태일 수 있다. 실시간으로 360 비디오를 전송하는 경우에는 데이터 저장부가 필요하지 않을 수 있으나, 온 디맨드, NRT (Non Real Time), 브로드밴드 등을 통해 전달하는 경우에는 인캡슐레이션된 360 데이터가 데이터 저장부에 일정 기간 저장되었다가 전송될 수도 있다.

실시예들에 따른 360 비디오 전송 장치의 다른 실시예에 의하면, 360 비디오 전송 장치는 (송신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 네트워크 인터페이스는 실시예들에 따른 360 비디오 수신 장치로부터 피드백 정보를 전달받고, 이를 송신측 피드백 처리부로 전달할 수 있다. 송신측 피드백 처리부는 피드백 정보를 스티처, 프로젝션 처리부, 리전별 패킹 처리부, 데이터 인코더, 인캡슐레이션 처리부, 메타데이터 처리부 및/또는 전송 처리부로 전달할 수 있다. 실시예에 따라 피드백 정보는 메타데이터 처리부에 일단 전달된 후, 다시 각 내부 엘레멘트들로 전달될 수 있다. 피드백 정보를 전달받은 내부 엘레먼트들은 이 후의 360 비디오 데이터의 처리에 피드백 정보를 반영할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 리전별 패킹 처리부는 각 리전을 회전하여 2D 이미지 상에 매핑할 수 있다. 이 때 각 리전들은 서로 다른 방향, 서로 다른 각도로 회전되어 2D 이미지 상에 매핑될 수 있다. 리전의 회전은 360 비디오 데이터가 구형의 면 상에서 프로젝션 전에 인접했던 부분, 스티칭된 부분 등을 고려하여 수행될 수 있다. 리전의 회전에 관한 정보들, 즉 회전 방향, 각도 등은 360 비디오 관련 메타데이터에 의해 시그널링될 수 있다. 실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각 리전 별로 다르게 인코딩을 수행할 수 있다. 데이터 인코더는 특정 리전은 높은 퀄리티로, 다른 리전은 낮은 퀄리티로 인코딩을 수행할 수 있다. 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 데이터 인코더로 전달하여, 데이터 인코더가 리전별 차등화된 인코딩 방법을 사용하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 퀄리티(UHD 등) 로 인코딩을 수행할 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 리전 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 리전 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 리전 별로 전달되는 데이터의 강건성(robustenss) 을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 리전별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 정보가 지시하는 영역을 포함하는 리전들에 대해 다른 리전들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

전술한 실시예들에 따른 360 비디오 전송 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 전송 장치에 추가될 수도 있다.

도 3 은 실시예들의 다른 측면에 따른 360도 비디오 수신 장치를 도시한 도면이다.

다른 측면에 따르면 실시예들은 360 비디오 수신 장치와 관련될 수 있다. 실시예들에 따른 360 비디오 수신 장치는 전술한 프로세싱 과정 및/또는 렌더링 과정에 관련된 동작들을 수행할 수 있다. 실시예들에 따른 360 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 데이터 디코더, 메타데이터 파서, (수신측) 피드백 처리부, 리-프로젝션 처리부 및/또는 렌더러를 내/외부 엘레멘트로서 포함할 수 있다.

수신부는 실시예들에 따른 360 비디오 전송 장치가 전송한 360 비디오 데이터를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 360 비디오 데이터를 수신할 수도 있고, 브로드밴드를 통하여 360 비디오 데이터를 수신할 수도 있다.

수신 처리부는 수신된 360 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 360 비디오 데이터는 디캡슐레이션 처리부로 전달하고, 획득한 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 수신 처리부가 획득하는 360 비디오 관련 메타데이터는 시그널링 테이블의 형태일 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 360 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일들을 디캡슐레이션하여, 360 비디오 데이터 내지 360 비디오 관련 메타데이터를 획득할 수 있다. 획득된 360 비디오 데이터는 데이터 디코더로, 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 디캡슐레이션 처리부가 획득하는 360 비디오 관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 파서로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다.

데이터 디코더는 360 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타데이터 파서로부터 디코딩에 필요한 메타데이터를 전달받을 수도 있다. 데이터 디코딩 과정에서 획득된 360 비디오 관련 메타데이터는 메타데이터 파서로 전달될 수도 있다.

메타데이터 파서는 360 비디오 관련 메타데이터에 대한 파싱/디코딩을 수행할 수 있다. 메타데이터 파서는 획득한 메타데이터를 데이터 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부 및/또는 렌더러로 전달할 수 있다.

리-프로젝션 처리부는 디코딩된 360 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 360 비디오 데이터를 3D 공간으로 리-프로젝션할 수 있다. 3D 공간은 사용되는 3D 모델에 따라 다른 형태를 가질 수 있다. 리-프로젝션 처리부는 메타데이터 파서로부터 리-프로젝션에 필요한 메타데이터를 전달받을 수도 있다. 예를 들어 리-프로젝션 처리부는 사용되는 3D 모델의 타입 및 그 세부 정보에 대한 정보를 메타데이터 파서로부터 전달받을 수 있다. 실시예에 따라 리-프로젝션 처리부는 리-프로젝션에 필요한 메타데이터를 이용하여, 3D 공간 상의 특정 영역에 해당하는 360 비디오 데이터만을 3D 공간으로 리-프로젝션할 수도 있다.

렌더러는 리-프로젝션된 360 비디오 데이터를 렌더링할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간상에 렌더링된다고 표현할 수도 있는데, 이처럼 두 과정이 한번에 일어나는 경우 리-프로젝션 처리부와 렌더러는 통합되어, 렌더러에서 이 과정들이 모두 진행될 수 있다. 실시예에 따라 렌더러는 사용자의 시점 정보에 따라 사용자가 보고 있는 부분만을 렌더링할 수도 있다.

사용자는 VR 디스플레이 등을 통하여 렌더링된 360 비디오의 일부 영역을 볼 수 있다. VR 디스플레이는 360 비디오를 재생하는 장치로서, 360 비디오 수신 장치에 포함될 수도 있고(tethered), 별도의 장치로서 360 비디오 수신 장치에 연결될 수도 있다(un-tethered).

실시예들에 따른 360 비디오 수신 장치의 일 실시예에 의하면, 360 비디오 수신 장치는 (수신측) 피드백 처리부 및/또는 네트워크 인터페이스(도시되지 않음)를 내/외부 엘레멘트로서 더 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 처리부 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 뷰포트 정보, 헤드 오리엔테이션 정보, 게이즈(Gaze) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 수신측 피드백 처리부로부터 전달받고, 이를 360 비디오 전송 장치로 전송할 수 있다.

전술한 바와 같이, 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 수신측 피드백 처리부는 획득한 피드백 정보를 360 비디오 수신 장치의 내부 엘레멘트들로 전달하여, 렌더링 등의 과정에 반영되게 할 수 있다. 수신측 피드백 처리부는 피드백 정보를 렌더러, 리-프로젝션 처리부, 데이터 디코더 및/또는 디캡슐레이션 처리부로 전달할 수 있다. 예를 들어, 렌더러는 피드백 정보를 활용하여 사용자가 보고 있는 영역을 우선적으로 렌더링할 수 있다. 또한 디캡슐레이션 처리부, 데이터 디코더 등은 사용자가 보고 있는 영역 내지 보게될 영역을 우선적으로 디캡슐레이션, 디코딩할 수 있다.

전술한 실시예들에 따른 360 비디오 수신 장치의 내/외부 엘레멘트들은 하드웨어로 구현되는 하드웨어 엘레멘트들일 수 있다. 실시예에 따라 내/외부 엘레멘트들은 변경, 생략되거나 다른 엘레멘트로 대체, 통합될 수 있다. 실시예에 따라 부가 엘레멘트들이 360 비디오 수신 장치에 추가될 수도 있다.

실시예들의 또 다른 측면은 360 비디오를 전송하는 방법 및 360 비디오를 수신하는 방법과 관련될 수 있다. 실시예들에 따른 360 비디오를 전송/수신하는 방법은, 각각 전술한 실시예들에 따른 360 비디오 전송/수신 장치 또는 그 장치의 실시예들에 의해 수행될 수 있다.

전술한 실시예들에 따른 360 비디오 전송/수신 장치, 전송/수신 방법의 각각의 실시예 및 그 내/외부 엘리멘트 각각의 실시예들을 서로 조합될 수 있다. 예를 들어 프로젝션 처리부의 실시예들과, 데이터 인코더의 실시예들은 서로 조합되어, 그 경우의 수만큼의 360 비디오 전송 장치의 실시예들을 만들어 낼 수 있다. 이렇게 조합된 실시예들 역시 실시예들의 범위에 포함된다.

도 4 는 실시예들의 다른 실시예에 따른 360도 비디오 전송 장치/360도 비디오 수신 장치를 도시한 도면이다.

전술한 바와 같이, 도시된 (a) 와 같은 아키텍처에 의하여 360 컨텐츠가 제공될 수 있다. 360 컨텐츠는 파일 형태로 제공되거나, DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있다. 여기서 360 컨텐츠는 VR 컨텐츠로 불릴 수 있다.

전술한 바와 같이 360 비디오 데이터 및/또는 360 오디오 데이터가 획득될 수 있다(Acquisition).

360 오디오 데이터는 오디오 프리-프로세싱 과정(Audio Preprocessing), 오디오 인코딩 과정(Audio encoding)을 거칠 수 있다. 이 과정에서 오디오 관련 메타데이터가 생성될 수 있으며, 인코딩된 오디오와 오디오 관련 메타데이터는 전송을 위한 처리(file/segment encapsulation)를 거칠 수 있다.

360 비디오 데이터는 전술한 것과 같은 과정을 거칠 수 있다. 360 비디오 전송 장치의 스티처는 360 비디오 데이터에 스티칭을 수행할 수 있다(Visual stitching). 이 과정은 실시예에 따라 생략되고 수신측에서 수행될 수도 있다. 360 비디오 전송 장치의 프로젝션 처리부는 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다(Projection and mapping(packing)).

이 스티칭 및 프로젝션 과정은 (b) 에 구체적으로 도시되었다. 도시된 (b) 에서, 360 비디오 데이터(Input Images) 를 전달받으면, 이에 스티칭 및 프로젝션이 수행될 수 있다. 프로젝션 과정은 구체적으로 스티칭된 360 비디오 데이터를 3D 공간 상으로 프로젝션하고, 프로젝션된 360 비디오 데이터가 2D 이미지 상으로 배열되는 것으로 볼 수 있다. 본 명세서에서 이 과정을 360 비디오 데이터를 2D 이미지 상으로 프로젝션한다고 표현할 수도 있다. 여기서 3D 공간은 구(sphere) 또는 큐브(cube) 등일 수 있다. 이 3D 공간은 수신측에서 리-프로젝션에 사용되는 3D 공간과 같을 수도 있다.

2D 이미지는 프로젝티드 프레임(C, Projected frame) 이라 불릴 수도 있다. 이 2D 이미지에 리전별 패킹(Region-wise packing) 이 선택적으로 더 수행될 수도 있다. 리전별 패킹이 수행되는 경우, 각 리전(Region)의 위치, 형태, 크기를 지시함으로써, 2D 이미지 상의 리전들이 팩드 프레임(D, packed frame) 상으로 매핑될 수 있다. 리전별 패킹이 수행되지 않는 경우, 프로젝티드 프레임은 팩드 프레임과 같을 수 있다. 리전에 대해서는 후술한다. 프로젝션 과정 및 리전별 패킹 과정을, 360 비디오 데이터의 각 리전들이 2D 이미지 상에 프로젝션된다고 표현할 수도 있다. 설계에 따라, 360 비디오 데이터는 중간 과정 없이 팩드 프레임으로 바로 변환될 수도 있다.

도시된 (a) 에서, 프로젝션된 360 비디오 데이터는 이미지 인코딩 내지 비디오 인코딩될 수 있다. 같은 컨텐트라도 다른 시점(viewpoints)별로 존재할 수 있으므로, 같은 컨텐트가 서로 다른 비트 스트림으로 인코딩될 수도 있다. 인코딩된 360 비디오 데이터는 전술한 인캡슐레이션 처리부에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인캡슐레이션 처리부는 인코딩된 360 비디오 데이터를 세그먼트들로 처리할 수 있다. 세그먼트들은 DASH 에 기반한 전송을 위한 개별 트랙에 포함될 수 있다.

360 비디오 데이터의 처리와 함께, 전술한 것과 같이 360 비디오 관련 메타데이터가 생성될 수 있다. 이 메타데이터는 비디오 스트림 혹은 파일 포맷에 포함되어 전달될 수 있다. 이 메타데이터는 인코딩 과정이나 파일 포맷 인캡슐레이션, 전송을 위한 처리 등과 같은 과정에도 쓰일 수 있다.

360 오디오/비디오 데이터는 전송 프로토콜에 따라 전송을 위한 처리를 거치고, 이후 전송될 수 있다. 전술한 360 비디오 수신 장치는 이를 방송망 또는 브로드밴드를 통해 수신할 수 있다.

도시된 (a) 에서 VR 서비스 플랫폼(VR service platform) 은 전술한 360 비디오 수신 장치의 일 실시예에 해당할 수 있다. 도시된 (a) 에서 스피커/헤드폰(Loudspeakers/headphones), 디스플레이(Display), 헤드/아이 트랙킹 컴포넌트(Head/eye tracking) 는 360 비디오 수신 장치의 외부 장치 내지 VR 어플리케이션에 의해 수행되는 것으로 도시되었는데, 실시예에 따라 360 비디오 수신 장치는 이 들을 모두 포함할 수도 있다. 실시예에 따라 헤드/아이 트랙킹 컴포넌트는 전술한 수신측 피드백 처리부에 해당할 수 있다.

360 비디오 수신 장치는 360 오디오/비디오 데이터에 수신을 위한 처리(File/segment decapsulation)를 수행할 수 있다. 360 오디오 데이터는 오디오 디코딩(Audio decoding), 오디오 렌더링(Audio rendering) 과정을 거쳐 스피커/헤드폰을 통해 사용자에게 제공될 수 있다.

360 비디오 데이터는 이미지 디코딩 내지 비디오 디코딩, 렌더링(Visual rendering) 과정을 거쳐 디스플레이를 통해 사용자에게 제공될 수 있다. 여기서 디스플레이는 VR 을 지원하는 디스플레이거나 일반 디스플레이일 수 있다.

전술한 바와 같이 렌더링 과정은 구체적으로, 360 비디오 데이터가 3D 공간 상에 리-프로젝션되고, 리-프로젝션된 360 비디오 데이터가 렌더링되는 것으로 볼 수 있다. 이를 360 비디오 데이터가 3D 공간 상에 렌더링된다고 표현할 수도 있다.

헤드/아이 트랙킹 컴포넌트는 사용자의 헤드 오리엔테이션 정보, 게이즈 정보, 뷰포트(Viewport) 정보 등을 획득, 처리할 수 있다. 이에 대해서는 전술하였다.

수신측에서는 전술한 수신측 과정들과 통신하는 VR 어플리케이션이 존재할 수 있다.

도 5 는 실시예들의 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

실시예들에서, 3D 공간에서의 특정 지점, 위치, 방향, 간격, 영역 등을 표현하기 위하여 비행기 주축 개념이 사용될 수 있다.

즉, 실시예들에서 프로젝션 전 또는 리-프로젝션 후의 3D 공간에 대해 기술하고, 그에 대한 시그널링을 수행하기 위하여 비행기 주축 개념이 사용될 수 있다. 실시예에 따라 X, Y, Z 축 개념 또는 구 좌표계를 이용한 방법이 사용될 수도 있다.

비행기는 3 차원으로 자유롭게 회전할 수 있다. 3차원을 이루는 축을 각각 피치(pitch) 축, 야(yaw) 축 및 롤(roll) 축이라고 한다. 본 명세서에서 이 들을 줄여서 pitch, yaw, roll 내지 pitch 방향, yaw 방향, roll 방향이라고 표현할 수도 있다.

Pitch 축은 비행기의 앞코가 위/아래로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 pitch 축은 비행기의 날개에서 날개로 이어지는 축을 의미할 수 있다.

Yaw 축은 비행기의 앞코가 좌/우로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 yaw 축은 비행기의 위에서 아래로 이어지는 축을 의미할 수 있다.

Roll 축은 도시된 비행기 주축 개념에서 비행기의 앞코에서 꼬리로 이어지는 축으로서, roll 방향의 회전이란 roll 축을 기준으로 한 회전을 의미할 수 있다.

전술한 바와 같이, pitch, yaw, roll 개념을 통해 실시예들에서의 3D 공간이 기술될 수 있다.

도 6 는 실시예들의 일 실시예에 따른 프로젝션 스킴들을 도시한 도면이다.

전술한 바와 같이 실시예들에 따른 360 비디오 전송 장치의 프로젝션 처리부는 스티칭된 360 비디오 데이터를 2D 이미지 상에 프로젝션할 수 있다. 이 과정에서 다양한 프로젝션 스킴들이 활용될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 큐빅 프로젝션(Cubic Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 예를 들어 스티칭된 360 비디오 데이터는 구형의 면 상에 나타내어질 수 있다. 프로젝션 처리부는 이러한 360 비디오 데이터를 큐브(Cube, 정육면체) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 큐브의 각 면에 대응되어, 2D 이미지 상에 (a) 좌측 또는 (a) 우측과 같이 프로젝션될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 실린더형 프로젝션(Cylindrical Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 실린더(Cylinder) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 실린더의 옆면(side)과 윗면(top), 바닥면(bottom) 에 각각 대응되어, 2D 이미지 상에 (b) 좌측 또는 (b) 우측과 같이 프로젝션될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 프로젝션 처리부는 피라미드 프로젝션(Pyramid Projection) 스킴을 이용하여 프로젝션을 수행할 수 있다. 마찬가지로 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 피라미드 형태로 보고, 각 면을 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 피라미드의 바닥면(front), 피라미드의 4방향의 옆면(Left top, Left bottom, Right top, Right bottom) 에 각각 대응되어, 2D 이미지 상에 (c) 좌측 또는 (c) 우측과 같이 프로젝션될 수 있다.

실시예에 따라 프로젝션 처리부는 전술한 스킴들 외에 등정방형 프로젝션(Equirectangular Projection) 스킴, 파노라믹 프로젝션(Panoramic Projection) 스킴 등을 이용하여 프로젝션을 수행할 수도 있다.

전술한 바와 같이 리전(Region) 이란, 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은 프로젝션 스킴에 따라 프로젝션된 2D 이미지 상의 각 면들과 일치할 필요는 없다. 그러나 실시예에 따라, 프로젝션된 2D 이미지 상의 각 면들이 리전과 대응되도록 리전이 구분되어, 리전별 패킹이 수행될 수도 있다. 실시예에 따라 복수개의 면들이 하나의 리전에 대응될 수도 있고, 하나의 면이 복수개의 리전에 대응되게 리전이 구분될 수도 있다. 이 경우, 리전은 프로젝션 스킴에 따라 달라질 수 있다. 예를 들어 (a) 에서 정육면체의 각 면들(top, bottom, front, left, right, back) 은 각각 리전일 수 있다. (b) 에서 실린더의 옆면(side), 윗면(top), 바닥면(bottom) 은 각각 리전일 수 있다. (c) 에서 피라미드의 바닥면(front), 4방향 옆면(Left top, Left bottom, Right top, Right bottom) 들은 각각 리전일 수 있다.

도 7 은 실시예들의 일 실시예에 따른 타일(Tile)을 도시한 도면이다.

2D 이미지에 프로젝션된 360 비디오 데이터 또는 리전별 패킹까지 수행된 360 비디오 데이터는 하나 이상의 타일로 구분될 수 있다. 도시된 (a) 는 하나의 2D 이미지가 16 개의 타일로 나뉘어진 형태를 도시하고 있다. 여기서 2D 이미지란 전술한 프로젝티드 프레임 내지는 팩드 프레임일 수 있다. 실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각각의 타일을 독립적으로 인코딩할 수 있다.

전술한 리전별 패킹과 타일링(Tiling)은 구분될 수 있다. 전술한 리전별 패킹은 코딩 효율을 높이기 위해 또는 레졸루션을 조정하기 위하여 2D 이미지상에 프로젝션된 360 비디오 데이터를 리전으로 구분하여 처리하는 것을 의미할 수 있다. 타일링은 데이터 인코더가 프로젝티드 프레임 내지는 팩드 프레임을 타일이라는 구획별로 나누고, 해당 타일들 별로 독립적으로 인코딩을 수행하는 것을 의미할 수 있다. 360 비디오가 제공될 때, 사용자는 360 비디오의 모든 부분을 동시에 소비하지 않는다. 타일링은 제한된 밴드위스(bandwidth)상에서 사용자가 현재 보는 뷰포트 등 중요 부분 내지 일정 부분에 해당하는 타일만을 수신측으로 전송 혹은 소비하는 것을 가능케할 수 있다. 타일링을 통해 제한된 밴드위스가 더 효율적으로 활용될 수 있고, 수신측에서도 모든 360 비디오 데이터를 한번에 다 처리하는 것에 비하여 연산 부하를 줄일 수 있다.

리전과 타일은 구분되므로, 두 영역이 같을 필요는 없다. 그러나 실시예에 따라 리전과 타일은 같은 영역을 지칭할 수도 있다. 실시예에 따라 타일에 맞추어 리전별 패킹이 수행되어 리전과 타일이 같아질 수 있다. 또한 실시예에 따라, 프로젝션 스킴에 따른 각 면과 리전이 같은 경우, 프로젝션 스킴에 따른 각 면, 리전, 타일이 같은 영역을 지칭할 수도 있다. 문맥에 따라 리전은 VR 리전, 타일을 타일 리전으로 불릴 수도 있다.

ROI (Region of Interest) 는 360 컨텐츠 제공자가 제안하는, 사용자들의 관심 영역을 의미할 수 있다. 360 컨텐츠 제공자는 360 비디오를 제작할 때, 어느 특정 영역을 사용자들이 관심있어 할 것으로 보고, 이를 고려하여 360 비디오를 제작할 수 있다. 실시예에 따라 ROI 는 360 비디오의 컨텐츠 상, 중요한 내용이 재생되는 영역에 해당할 수 있다.

실시예들에 따른 360 비디오 전송/수신 장치의 또 다른 실시예에 의하면, 수신측 피드백 처리부는 뷰포트 정보를 추출, 수집하여 이를 송신측 피드백 처리부로 전달할 수 있다. 이 과정에서 뷰포트 정보는 양 측의 네트워크 인터페이스를 이용해 전달될 수 있다. 도시된 (a) 의 2D 이미지에서 뷰포트 (t6010) 가 표시되었다. 여기서 뷰포트 는 2D 이미지 상의 9 개의 타일에 걸쳐 있을 수 있다.

이 경우 360 비디오 전송 장치는 타일링 시스템을 더 포함할 수 있다. 실시예에 따라 타일링 시스템은 데이터 인코더 다음에 위치할 수도 있고(도시된 (b)), 전술한 데이터 인코더 내지 전송 처리부 내에 포함될 수도 있고, 별개의 내/외부 엘리먼트로서 360 비디오 전송 장치에 포함될 수 있다.

타일링 시스템은 송신측 피드백 처리부로부터 뷰포트 정보를 전달받을 수 있다. 타일링 시스템은 뷰포트 영역이 포함되는 타일만을 선별하여 전송할 수 있다. 도시된 (a) 의 2D 이미지에서 총 16 개의 타일 중 뷰포트 영역(t6010) 을 포함하는 9 개의 타일들만이 전송될 수 있다. 여기서 타일링 시스템은 브로드밴드를 통한 유니캐스트 방식으로 타일들을 전송할 수 있다. 사용자에 따라 뷰포트 영역이 다르기 때문이다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 퀄리티로 인코딩을 수행할 수 있다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 메타데이터 처리부로 전달할 수 있다. 메타데이터 처리부는 뷰포트 영역과 관련된 메타데이터 를 360 비디오 전송 장치의 각 내부 엘레먼트로 전달해주거나, 360 비디오 관련 메타데이터에 포함시킬 수 있다.

이러한 타일링 방식을 통하여, 전송 밴드위스(bandwidth)가 절약될 수 있으며, 타일 별로 차등화된 처리를 수행하여 효율적 데이터 처리/전송이 가능해질 수 있다.

전술한 뷰포트 영역과 관련된 실시예들은 뷰포트 영역이 아닌 다른 특정 영역들에 대해서도 유사한 방식으로 적용될 수 있다. 예를 들어, 전술한 게이즈 분석을 통해 사용자들이 주로 관심있어 하는 것으로 판단된 영역, ROI 영역, 사용자가 VR 디스플레이를 통해 360 비디오를 접할 때 처음으로 재생되는 영역(초기 시점, Initial Viewpoint) 등에 대해서도, 전술한 뷰포트 영역과 같은 방식의 처리들이 수행될 수 있다.

실시예들에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 타일 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 타일 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 타일 별로 전달되는 데이터의 강건성(robustenss)을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 타일별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

도 8 은 실시예들의 일 실시예에 따른 360도 비디오 관련 메타데이터를 도시한 도면이다.

전술한 360 비디오 관련 메타데이터는 360 비디오에 대한 다양한 메타데이터를 포함할 수 있다. 문맥에 따라, 360 비디오 관련 메타데이터는 360 비디오 관련 시그널링 정보라고 불릴 수도 있다. 360 비디오 관련 메타데이터는 별도의 시그널링 테이블에 포함되어 전송될 수도 있고, DASH MPD 내에 포함되어 전송될 수도 있고, ISOBMFF 등의 파일 포맷에 box 형태로 포함되어 전달될 수도 있다. 360 비디오 관련 메타데이터가 box 형태로 포함되는 경우 파일, 프래그먼트, 트랙, 샘플 엔트리, 샘플 등등 다양한 레벨에 포함되어 해당되는 레벨의 데이터에 대한 메타데이터를 포함할 수 있다.

실시예에 따라, 후술하는 메타데이터의 일부는 시그널링 테이블로 구성되어 전달되고, 나머지 일부는 파일 포맷 내에 box 혹은 트랙 형태로 포함될 수도 있다.

실시예들에 따른 360 비디오 관련 메타데이터의 일 실시예에 의하면, 360 비디오 관련 메타데이터는 프로젝션 스킴 등에 관한 기본 메타데이터, 스테레오스코픽(stereoscopic) 관련 메타데이터, 초기 시점(Initial View/Initial Viewpoint) 관련 메타데이터, ROI 관련 메타데이터, FOV (Field of View) 관련 메타데이터 및/또는 크롭된 영역(cropped region) 관련 메타데이터를 포함할 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 메타데이터를 더 포함할 수 있다.

실시예들에 따른 360 비디오 관련 메타데이터의 실시예들은 전술한 기본 메타데이터, 스테레오스코픽 관련 메타데이터, 초기 시점 관련 메타데이터, ROI 관련 메타데이터, FOV 관련 메타데이터, 크롭된 영역 관련 메타데이터 및/또는 이후 추가될 수 있는 메타데이터들 중 적어도 하나 이상을 포함하는 형태일 수 있다. 실시예들에 따른 360 비디오 관련 메타데이터의 실시예들은, 각각 포함하는 세부 메타데이터들의 경우의 수에 따라 다양하게 구성될 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 정보들을 더 포함할 수도 있다.

기본 메타데이터에는 3D 모델 관련 정보, 프로젝션 스킴 관련 정보 등이 포함될 수 있다. 기본 메타데이터에는 vr_geometry 필드, projection_scheme 필드 등이 포함될 수 있다. 실시예에 따라 기본 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

vr_geometry 필드는 해당 360 비디오 데이터가 지원하는 3D 모델의 타입을 지시할 수 있다. 전술한 바와 같이 360 비디오 데이터가 3D 공간 상에 리-프로젝션되는 경우, 해당 3D 공간은 vr_geometry 필드가 지시하는 3D 모델에 따른 형태를 가질 수 있다. 실시예에 따라, 렌더링시에 사용되는 3D 모델은 vr_geometry 필드가 지시하는 리-프로젝션에 사용되는 3D 모델과 다를 수도 있다. 이 경우, 기본 메타데이터는 렌더링시에 사용되는 3D 모델을 지시하는 필드를 더 포함할 수도 있다. 해당 필드가 0, 1, 2, 3 의 값을 가지는 경우 3D 공간은 각각 구형(Sphere), 큐브(Cube), 실린더(Cylinder), 피라미드(Pyramid)의 3D 모델을 따를 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 지시되는 3D 모델에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 3D 모델에 대한 구체적인 정보란 예를 들어 구형의 반지름 정보, 실린더의 높이 정보 등을 의미할 수 있다. 본 필드는 생략될 수 있다.

projection_scheme 필드는 해당 360 비디오 데이터가 2D 이미지 상에 프로젝션될 때 사용된 프로젝션 스킴을 지시할 수 있다. 해당 필드가 0, 1, 2, 3, 4, 5 의 값을 가지는 경우, 각각 등정방형 프로젝션(Equirectangular Projection) 스킴, 큐빅 프로젝션 스킴, 실린더형 프로젝션 스킴, 타일-베이스드(Tile-based) 프로젝션 스킴, 피라미드 프로젝션 스킴, 파노라믹 프로젝션 스킴이 사용되었을 수 있다. 해당 필드가 6 의 값을 가지는 경우는, 360 비디오 데이터가 스티칭 없이 바로 2D 이미지 상에 프로젝션된 경우일 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use). 실시예에 따라 360 비디오 관련 메타데이터는 해당 필드에 의해 특정되는 프로젝션 스킴에 의해 발생한 리전(Region)에 대한 구체적인 정보를 더 포함할 수 있다. 여기서 리전에 대한 구체적인 정보란 예를 들어 리전의 회전 여부, 실린더의 윗면(top) 리전의 반지름 정보 등을 의미할 수 있다.

스테레오스코픽 관련 메타데이터는 360 비디오 데이터의 3D 관련 속성들에 대한 정보들을 포함할 수 있다. 스테레오스코픽 관련 메타데이터는 is_stereoscopic 필드 및/또는 stereo_mode 필드를 포함할 수 있다. 실시예에 따라 스테레오스코픽 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_stereoscopic 필드는 해당 360 비디오 데이터가 3D 를 지원하는지 여부를 지시할 수 있다. 해당 필드가 1 이면 3D 지원, 0 이면 3D 미지원을 의미할 수 있다. 본 필드는 생략될 수 있다.

stereo_mode 필드는 해당 360 비디오가 지원하는 3D 레이아웃을 지시할 수 있다. 본 필드만으로 해당 360 비디오가 3D 를 지원하는지 여부를 지시할 수도 있는데, 이 경우 전술한 is_stereoscopic 필드는 생략될 수 있다. 본 필드 값이 0 인 경우, 해당 360 비디오는 모노(mono) 모드일 수 있다. 즉 프로젝션된 2D 이미지는 하나의 모노 뷰(mono view) 만을 포함할 수 있다. 이 경우 해당 360 비디오는 3D 를 지원하지 않을 수 있다.

본 필드 값이 1, 2 인 경우, 해당 360 비디오는 각각 좌우(Left-Right) 레이아웃, 상하(Top-Bottom) 레이아웃에 따를 수 있다. 좌우 레이아웃, 상하 레이아웃은 각각 사이드-바이-사이드 포맷, 탑-바텀 포맷으로 불릴 수도 있다. 좌우 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 좌/우로 위치할 수 있다. 상하 레이아웃의 경우, 좌영상/우영상이 프로젝션된 2D 이미지들은 이미지 프레임 상에서 각각 위/아래로 위치할 수 있다. 해당 필드가 나머지 값을 가지는 경우는 향후 사용을 위해 남겨둘 수 있다(Reserved for Future Use).

초기 시점 관련 메타데이터는 사용자가 360 비디오를 처음 재생했을 때 보게되는 시점(초기 시점)에 대한 정보를 포함할 수 있다. 초기 시점 관련 메타데이터는 initial_view_yaw_degree 필드, initial_view_pitch_degree 필드 및/또는 initial_view_roll_degree 필드를 포함할 수 있다. 실시예에 따라 초기 시점 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

initial_view_yaw_degree 필드, initial_view_pitch_degree 필드, initial_view_roll_degree 필드는 해당 360 비디오 재생 시의 초기 시점을 나타낼 수 있다. 즉, 재생시 처음 보여지는 뷰포트의 정중앙 지점이, 이 세 필드들에 의해 나타내어질 수 있다. 각 필드는 그 정중앙 지점이 위치를 yaw, pitch, roll 축을 기준으로 회전된 방향(부호) 및 그 정도(각도)로 나타낼 수 있다. 이 때 FOV 에 따라 처음 재생시 보여지게 되는 뷰포트가 결정될 수 있다. FOV 를 통하여, 지시된 초기 시점을 기준으로 한, 초기 뷰포트의 가로길이 및 세로길이(width, height) 가 결정될 수 있다. 즉, 이 세 필드들 및 FOV 정보를 이용하여, 360 비디오 수신 장치는 사용자에게 360 비디오의 일정 영역을 초기 뷰포트로서 제공할 수 있다.

실시예에 따라, 초기 시점 관련 메타데이터가 지시하는 초기 시점은, 장면(scene) 별로 변경될 수 있다. 즉, 360 컨텐츠의 시간적 흐름에 따라 360 비디오의 장면이 바뀌게 되는데, 해당 360 비디오의 장면마다 사용자가 처음 보게되는 초기 시점 내지 초기 뷰포트가 변경될 수 있다. 이 경우, 초기 시점 관련 메타데이터는 각 장면별로의 초기 시점을 지시할 수 있다. 이를 위해 초기 시점 관련 메타데이터는, 해당 초기 시점이 적용되는 장면을 식별하는 장면(scene) 식별자를 더 포함할 수도 있다. 또한 360 비디오의 장면별로 FOV 가 변할 수도 있으므로, 초기 시점 관련 메타데이터는 해당 장면에 해당하는 FOV 를 나타내는 장면별 FOV 정보를 더 포함할 수도 있다.

ROI 관련 메타데이터는 전술한 ROI 에 관련된 정보들을 포함할 수 있다. ROI 관련 메타데이터는, 2d_roi_range_flag 필드 및/또는 3d_roi_range_flag 필드를 포함할 수 있다. 두 필드는 각각 ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는지, 3D 공간을 기준으로 ROI 를 표현하는 필드들을 포함하는지 여부를 지시할 수 있다. 실시예에 따라 ROI 관련 메타데이터는, ROI 에 따른 차등 인코딩 정보, ROI 에 따른 차등 전송처리 정보 등 추가적인 정보들을 더 포함할 수도 있다.

ROI 관련 메타데이터가 2D 이미지를 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드, min_width 필드, max_width 필드, min_height 필드, max_height 필드, min_x 필드, max_x 필드, min_y 필드 및/또는 max_y 필드를 포함할 수 있다.

min_top_left_x 필드, max_top_left_x 필드, min_top_left_y 필드, max_top_left_y 필드는 ROI 의 좌측 상단 끝의 좌표의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 좌상단 끝의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다.

min_width 필드, max_width 필드, min_height 필드, max_height 필드는 ROI 의 가로 크기(width), 세로 크기(height)의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 가로 크기의 최소값, 가로 크기의 최대값, 세로 크기의 최소값, 세로 크기의 최대값을 나타낼 수 있다.

min_x 필드, max_x 필드, min_y 필드, max_y 필드는 ROI 내의 좌표들의 최소/최대값을 나타낼 수 있다. 이 필드들은 차례로 ROI 내 좌표들의 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표 를 나타낼 수 있다. 이 필드들은 생략될 수 있다.

ROI 관련 메타데이터가 3D 랜더링 공간 상의 좌표 기준으로 ROI 를 표현하는 필드들을 포함하는 경우, ROI 관련 메타데이터는 min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드, min_field_of_view 필드 및/또는 max_field_of_view 필드를 포함할 수 있다.

min_yaw 필드, max_yaw 필드, min_pitch 필드, max_pitch 필드, min_roll 필드, max_roll 필드는 ROI 가 3D 공간상에서 차지하는 영역을 yaw, pitch, roll 의 최소/최대값으로 나타낼 수 있다. 이 필드들은 차례로 yaw 축 기준 회전량의 최소값, yaw 축 기준 회전량의 최대값, pitch 축 기준 회전량의 최소값, pitch 축 기준 회전량의 최대값, roll 축 기준 회전량의 최소값, roll 축 기준 회전량의 최대값을 나타낼 수 있다.

min_field_of_view 필드, max_field_of_view 필드는 해당 360 비디오 데이터의 FOV 의 최소/최대값을 나타낼 수 있다. FOV 는 360 비디오의 재생시 한번에 디스플레이되는 시야범위를 의미할 수 있다. min_field_of_view 필드, max_field_of_view 필드는 각각 FOV 의 최소값, 최대값을 나타낼 수 있다. 이 필드들은 생략될 수 있다. 이 필드들은 후술할 FOV 관련 메타데이터에 포함될 수도 있다.

FOV 관련 메타데이터는 전술한 FOV 에 관련한 정보들을 포함할 수 있다. FOV 관련 메타데이터는 content_fov_flag 필드 및/또는 content_fov 필드를 포함할 수 있다. 실시예에 따라 FOV 관련 메타데이터는 전술한 FOV 의 최소/최대값 관련 정보 등 추가적인 정보들을 더 포함할 수도 있다.

content_fov_flag 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보가 존재하는지 여부를 지시할 수 있다. 본 필드값이 1인 경우, content_fov 필드가 존재할 수 있다.

content_fov 필드는 해당 360 비디오에 대하여 제작시 의도한 FOV 에 대한 정보를 나타낼 수 있다. 실시예에 따라 해당 360 비디오 수신 장치의 수직(vertical) 혹은 수평(horizontal) FOV 에 따라, 360 영상 중에서 사용자에게 한번에 디스플레이되는 영역이 결정될 수 있다. 혹은 실시예에 따라 본 필드의 FOV 정보를 반영하여 사용자에게 한번에 디스플레이되는 360 비디오의 영역이 결정될 수도 있다.

크롭된 영역 관련 메타데이터는 이미지 프레임 상에서 실제 360 비디오 데이터를 포함하는 영역에 대한 정보를 포함할 수 있다. 이미지 프레임은 실제 360 비디오 데이터 프로젝션된 액티브 비디오 영역(Active Video Area)과 그렇지 않은 영역을 포함할 수 있다. 이 때 액티브 비디오 영역은 크롭된 영역 또는 디폴트 디스플레이 영역이라고 칭할 수 있다. 이 액티브 비디오 영역은 실제 VR 디스플레이 상에서 360 비디오로서 보여지는 영역으로서, 360 비디오 수신 장치 또는 VR 디스플레이는 액티브 비디오 영역만을 처리/디스플레이할 수 있다. 예를 들어 이미지 프레임의 종횡비(aspect ratio) 가 4:3 인 경우 이미지 프레임의 윗 부분 일부와 아랫부분 일부를 제외한 영역만 360 비디오 데이터를 포함할 수 있는데, 이 부분을 액티브 비디오 영역이라고 할 수 있다.

크롭된 영역 관련 메타데이터는 is_cropped_region 필드, cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드 및/또는 cr_region_height 필드를 포함할 수 있다. 실시예에 따라 크롭된 영역 관련 메타데이터는 추가적인 정보들을 더 포함할 수도 있다.

is_cropped_region 필드는 이미지 프레임의 전체 영역이 360 비디오 수신 장치 내지 VR 디스플레이에 의해 사용되는지 여부를 나타내는 플래그일 수 있다. 즉, 본 필드는 이미지 프레임 전체가 액티브 비디오 영역인지 여부를 지시할 수 있다. 이미지 프레임의 일부만이 액티브 비디오 영역인 경우, 하기의 4 필드가 더 추가될 수 있다.

cr_region_left_top_x 필드, cr_region_left_top_y 필드, cr_region_width 필드, cr_region_height 필드는 이미지 프레임 상에서 액티브 비디오 영역을 나타낼 수 있다. 이 필드들은 각각 액티브 비디오 영역의 좌상단의 x 좌표, 액티브 비디오 영역의 좌상단의 y 좌표, 액티브 비디오 영역의 가로 길이(width), 액티브 비디오 영역의 세로 길이(height) 를 나타낼 수 있다. 가로 길이와 세로 길이는 픽셀을 단위로 나타내어질 수 있다.

전술한 바와 같이, 360도 비디오 관련 시그널링 정보 또는 메타데이터는 임의로 정의된 시그널링 테이블에 포함될 수 있고, ISOBMFF 또는 Common File Format 등의 파일 포맷에 box형태로 포함될 수도 있으며, DASH MPD 내에 포함되어 전송될 수도 있다. 또한, 360도 미디어 데이터는 이러한 파일 포맷 또는 DASH segment에 포함되어 전송될 수도 있다.

이하, ISOBMFF 및 DASH MPD에 대해 순차적으로 설명한다.

실시예들은360 비디오 기반 VR 시스템은 전술한 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 이러한 방법을 3DoF (three degree of freedom) plus라고 명명할 수 있다. 구체적으로, 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 VR 시스템은 3DoF 기반 VR 시스템이라고 불릴 수 있다.

한편, 동일 시간대에서 서로 다른 위치 (viewpoint), 서로 다른 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 VR 시스템은 3DoF+ 또는 3DoF plus 기반 VR 시스템라고 불릴 수 있다.

1) (a)와 같은 공간(공연장의 예)을 가정했을 때, 서로 다른 위치(붉은색 동그라미로 표시된 공연장의 위치의 예)를 각각의 viewpoint로 고려할 수 있다. 이 때, 예제와 같이 동일 공간에 존재하는 각 viewpoint에서 제공되는 영상/음성은 동일한 시간 흐름을 가질 수 있다.

2) 이 경우 특정 위치에서 사용자의 시점 변화(head motion)에 따라 서로 다른 시각적/청각적 경험 제공할 수 있다. 즉, 특정 viewpoint에 대해 (b)에 도시된 바와 같은 다양한 viewing position의 sphere를 가정할 수 있으며, 각 시점의 상대적인 위치를 반영한 영상/음성/텍스트 정보를 제공할 수 있다.

3) 한편, (c)에 도시된 바와 같이 특정 위치의 특정 시점에서는 기존의 3DoF와 같이 다양한 방향의 시각적/청각적 정보를 전달할 수 있다. 이 때, main source(영상/음성/텍스트) 뿐만 아니라 추가적인 다양한 소스를 통합하여 제공할 수 있으며, 이는 사용자의 시청 방향 (viewing orientation)과 연계되거나 독립적으로 정보를 전달할 수 있다.

도 10은 3DoF+ 의 영상획득, 전처리, 전송, (후)처리, 렌더링 및 피드백 과정을 포함한 3DoF+ end-to-end system 흐름도에 대한 예시이다.

1) Acquisition: 360 비디오의 캡쳐, 합성 또는 생성 과정 등을 통한 360 비디오를 획득하는 과정을 의미할 수 있다. 이 과정을 통하여 다수의 위치에 대해 head motion에 따른 다수의 영상/음성 정보를 획득할 수 있다. 이 때, 영상 정보는 시각적 정보(texture) 뿐 아니라 깊이 정보(depth)를 포함할 수 있다. 이 때 a의 영상 정보 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 정보를 각각 획득할 수 있다.

2) Composition: 영상/음성 입력 장치를 통해 획득한 정보 뿐 아니라 외부 미디어를 통한 영상(비디오/이미지 등), 음성(오디오/효과음향 등), 텍스트(자막 등)을 사용자 경험에 포함하기 위해 합성하기 위한 방법을 정의할 수 있다.

3) Pre-processing: 획득된 360 비디오의 전송/전달을 위한 준비(전처리) 과정으로서, 스티칭, 프로젝션, 리전별 패킹 과정 및/또는 인코딩 과정 등을 포함할 수 있다. 즉, 이 과정은 영상/음성/텍스트 정보를 제작자의 의도에 따라 데이터를 변경/보완 하기위한 전처리 과정 및 인코딩 과정이 포함될 수 있다. 예를 들어 영상의 전처리 과정에서는 획득된 시각 정보를 360 sphere 상에 매핑하는 작업(stitching), 영역 경계를 없애거나 색상/밝기 차이를 줄이거나 영상의 시각적 효과를 주는 보정 작업(editing), 시점에 따른 영상을 분리하는 과정(view segmentation), 360 sphere 상의 영상을 2D 영상으로 매핑하는 프로젝션 과정(projection), 영역에 따라 영상을 재배치 하는 과정 (region-wise packing), 영상 정보를 압축하는 인코딩 과정이 포함될 수 있다. B의 비디오 측면의 예시와 같이 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 프로젝션 영상이 생성될 수 있다.

4) Delivery: 준비 과정(전처리 과정)을 거친 영상/음성 데이터 및 메타데이터들을 처리하여 전송하는 과정을 의미할 수 있다. 서로 다른 촬영 위치(viewpoint)에 따른 서로 다른 시점(viewing position)의 복수의 영상/음성 데이터 및 관련 메타데이터를 전달하는 방법으로써 전술한 바와 같이 방송망, 통신망을 이용하거나, 단방향 전달 등의 방법을 사용할 수 있다.

5) Post-processing & composition: 수신된/저장된 비디오/오디오/텍스트 데이터를 디코딩하고 최종 재생을 위한 후처리 과정을 의미할 수 있다. 예를 들어 후처리 과정은 전술한 바와 같이 패킹 된 영상을 풀어주는 언패킹 및 2D 프로젝션 된 영상을 3D 구형 영상으로복원하는 리-프로젝션 과정 등이 포함될 수 있다.

6) Rendering: 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 이 과정에서 영상/음성 신호를 최종적으로 출력하기 위한 형태로 재구성할 수 있다. 사용자의 관심영역이 존재하는 방향(viewing orientation), 시점(viewing position/head position), 위치(viewpoint)를 추적할 수 있으며, 이 정보에 따라 필요한 영상/음성/텍스트 정보만을 선택적으로 사용할 수 있다. 이 때, 영상 신호의 경우 사용자의 관심영역에 따라 c와 같이 서로 다른 시점을 선택할 수 있으며, 최종적으로 d와 같이 특정 위치에서의 특정 시점의 특정 방향의 영상을 출력할 수 있다.

7) Feedback: 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 본 실시예의 경우 사용자 관심영역의 방향(viewing orientation), 시점(viewing position), 위치(viewpoint)를 추정하고, 이를 기반으로 영상/음성을 재생할 수 있도록 피드백을 전달할 수 있다.

도11은 3DoF+ end-to-end 시스템의 구조를 나타낸다.

도11은 3DoF+ end-to-end 시스템 아키텍쳐의 예시이다. 도 11의 아키텍처에 의하여 전술된 바와 같이 3DoF+ 360 컨텐츠가 제공될 수 있다.

360 비디오 전송 장치는 크게 360 비디오(이미지)/오디오 데이터 획득이 이루어지는 부분 (acquisition unit), 획득된 데이터를 처리하는 부분 (video/audio pre-processor), 추가 정보를 합성하기 위한 부분(composition generation unit), 텍스트, 오디오 및 프로젝션된 360도 비디오를 인코딩하는 부분(encoding unit) 및 인코딩된 데이터를 인캡슐레이션하는 부분(encapsulation unit)으로 구성될 수 있다. 전술한 바와 같이 인코딩된 데이터는 비트스트림(bitstream) 형태로 출력될 수 있으며, 인코딩된 데이터는 ISOBMFF, CFF 등의 파일 포맷으로 인캡슐레이션되거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인코딩된 데이터는 디지털 저장 매체를 통하여 360 비디오 수신 장치로 전달될 수 있으며, 또는 비록 명시적으로 도시되지는 않았으나, 전술한 바와 같이 전송 처리부를 통하여 전송을 위한 처리를 거치고, 이후 방송망 또는 브로드밴드 등을 통하여 전송될 수 있다.

데이터 획득 부분에서는 센서의 방향(sensor orientation, 영상의 경우 viewing orientation), 센서의 정보 획득 시점(sensor position, 영상의 경우 viewing position), 센서의 정보 획득 위치(영상의 경우 viewpoint)에 따라 서로 다른 정보를 동시에 혹은 연속적으로 획득할 수 있으며, 이 때 비디오, 이미지, 오디오, 위치 정보 등을 획득할 수 있다.

영상 데이터의 경우 텍스처 (texture) 및 깊이 정보(depth)를 각각 획득할 수 있으며, 각 컴포넌트의 특성에 따라 서로 다른 전처리 (video pre-processing)가 가능하다. 예를 들어 텍스처 정보의 경우 이미지 센서 위치 정보를 이용하여 동일 위치 (viewpoint)에서 획득한 동일 시점 (viewing position)의 서로 다른 방향 (viewing orientation)의 영상들을 이용하여 360 전방위 영상을 구성할 수 있으며, 이를 위해 영상 스티칭 (stitching) 과정을 수행할 수 있다. 또한 영상을 인코딩하기 위한 포맷으로 변경하기 위한 프로젝션(projection) 및/또는 리전별 팩킹을 수행할 수 있다. 깊이 영상의 경우 일반적으로 뎁스 카메라를 통해 영상을 획득할 수 있으며, 이 경우 텍스쳐(예를 들어, 위치의 포인트에 대한 컬러를 알려줌)와 같은 형태로 깊이 영상을 만들 수 있다. 혹은, 별도로 측정된 데이터를 바탕으로 깊이 데이터를 생성할 수도 있다. 컴포넌트 별 영상이 생성된 후 효율적인 압축을 위한 비디오 포맷으로의 추가 변환 (packing)을 하거나 실제 필요한 부분으로 나누어 재 구성하는 과정 (sub-picture generation)이 수행될 수 있다. Video pre-processing 단에서 사용된 영상 구성에 대한 정보는 video metadata로 전달된다.

획득된 데이터 (혹은 주요하게 서비스 하기 위한 데이터) 이외에 추가적으로 주어지는 영상/음성/텍스트 정보를 함께 서비스 하는 경우, 이들 정보를 최종 재생 시 합성하기 위한 정보를 제공할 필요가 있다. 컴포지션 생성부(Composition generation unit)에서는 제작자의 의도를 바탕으로 외부에서 생성된 미디어 데이터 (영상의 경우 비디오/이미지, 음성의 경우 오디오/효과 음향, 텍스트의 경우 자막 등)를 최종 재생 단에서 합성하기 위한 정보를 생성하며, 이 정보는 composition metadata로 전달된다.

각각의 처리를 거친 영상/음성/텍스트 정보는 각각의 인코더를 이용해 압축되고, 어플리케이션에 따라 파일 혹은 세그먼트 단위로 인캡슐레이션 된다. 이 때, 비디오, 파일 혹은 세그먼트 구성 방법에 따라 필요한 정보만을 추출(file extractor)이 가능하다.

또한 각 데이터를 수신기에서 재구성하기 위한 정보가 코덱 혹은 파일 포멧/시스템 레벨에서 전달되는데, 여기에서는 비디오/오디오 재구성을 위한 정보 (video/audio metadata), 오버레이를 위한 합성 정보 (composition metadata), 비디오/오디오 재생 가능 위치 (viewpoint) 및 각 위치에 따른 시점 (viewing position) 정보 (viewing position and viewpoint metadata) 등이 포함된다. 이와 같은 정보의 처리는 별도의 메타데이터 처리부를 통한 생성도 가능하다.

360 비디오 수신 장치는 크게 수신된 파일 혹은 세그먼트를 디캡슐레이션하는 부분 (file/segment decapsulation unit), 비트스트림으로부터 영상/음성/텍스트 정보를 생성하는 부분 (decoding unit), 영상/음성/텍스트를 재생하기 위한 형태로 재구성하는 부분 (post-processor), 사용자의 관심영역을 추적하는 부분 (tracking unit) 및 재생 장치인 디스플레이로 구성될 수 있다.

디캡슐레이션을 통해 생성된 비트스트림은 데이터의 종류에 따라 영상/음성/텍스트 등으로 나뉘어 재생 가능한 형태로 개별적으로 디코딩될 수 있다.

tracking 부분에서는 센서 및 사용자의 입력 정보 등을 바탕으로 사용자의 관심 영역 (Region of interest)의 위치 (viewpoint), 해당 위치에서의 시점 (viewing position), 해당 시점에서의 방향 (viewing orientation) 정보를 생성하게 되며, 이 정보는 360 비디오 수신 장치의 각 모듈에서 관심 영역 선택 혹은 추출 등에 사용되거나, 관심 영역의 정보를 강조하기 위한 후처리 과정 등에 사용될 수 있다. 또한 360 비디오 전송 장치 에 전달되는 경우 효율적인 대역폭 사용을 위한 파일 선택 (file extractor) 혹은 서브 픽처 선택, 관심영역에 기반한 다양한 영상 재구성 방법 (viewport/viewing position / viewpoint dependent processing) 등에 사용될 수 있다.

디코딩 된 영상 신호는 영상 구성 방법에 따라 다양한 처리 방법에 따라 처리될 수 있다. 360 비디오 전송 장치에서 영상 패킹이 이루어 진 경우 메타데이터를 통해 전달된 정보를 바탕으로 영상을 재구성 하는 과정이 필요하다. 이 경우 360 비디오 전송 장치에서 생성한 video metadata를 이용할 수 있다. 또한 디코딩 된 영상 내에 복수의 시청 위치 (viewpoint), 혹은 복수의 시점 (viewing position), 혹은 다양한 방향 (viewing orientation)의 영상이 포함된 경우 tracking 을 통해 생성된 사용자의 관심 영역의 위치, 시점, 방향 정보와 매칭되는 정보를 선택하여 처리할 수 있다. 이 때, 송신단에서 생성한 viewing position and viewpoint metadata가 사용될 수 있다. 또한 특정 위치, 시점, 방향에 대해 복수의 컴포넌트가 전달되거나, 오버레이를 위한 비디오 정보가 별도로 전달되는 경우 각각에 따른 렌더링 과정이 포함될 수 있다. 별도의 렌더링 과정을 거친 비디오 데이터(텍스처, 뎁스, 오버레이)는 합성 과정 (composition)을 거치게 되며, 이 때, 송신단에서 생성한 composition metadata가 사용될 수 있다. 최종적으로 사용자의 관심 영역에 따라 viewport에 재생하기 위한 정보를 생성할 수 있다.

디코딩 된 음성 신호는 오디오 렌더러 그리고/혹은 후처리 과정을 통해 재생 가능한 음성 신호를 생성하게 되며, 이 때 사용자의 관심 영역에 대한 정보 및 360 비디오 수신 장치에 전달된 메타데이터를 바탕으로 사용자의 요구에 맞는 정보를 생성할 수 있다.

디코딩 된 텍스트 신호는 오버레이 렌더러에 전달되어 서브타이틀 등의 텍스트 기반의 오버레이 정보로써 처리된다. 필요한 경우 별도의 텍스트 후처리 과정이 포함될 수 있다.

도12는 FLUS (Framework for Live Uplink Streaming)의 구조를 나타낸다.

위에서 기술한 송신단 및 수신단의 세부 블록은 FLUS (Framework for Live Uplink Streaming)에서의 source 와 sink의 기능으로 각각 분류할 수 있으며, 이 경우 아래와 같이 정보 획득 장치에서 source의 기능을 구현하고, 네트워크 상에서 sink의 기능을 구현하거나, 혹은 네트워크 노드 내에서 source / sink를 각각 구현할 수 있다. 네트워크 노드는 UE(user equipment)를 포함할 수 있다. UE는 상술한 360 비디오 전송 장치 또는 360 비디오 수신 장치를 포함할 수 있다.

위에서 기술한 아키텍처를 기반으로 한 송수신 처리 과정을 아래와 같이 나타낼 수 있다. 아래의 송수신 처리 과정은 영상 신호 처리 과정을 기준으로 기술하며, 음성 혹은 텍스트와 같은 다른 신호를 처리하는 경우 기울임(italic)으로 표시된 부분은 생략하거나, 음성 혹은 텍스트 처리 과정에 맞도록 변경하여 처리할 수 있다.

도13은 3DoF+ 송신단의 구성을 나타낸다.

송신단(360 비디오 전송 장치)에서는 입력된 데이터가 카메라 출력 영상인 경우 sphere 영상 구성을 위한 스티칭을 위치/시점/컴포넌트 별로 진행할 수 있다. 위치/시점/컴포넌트 별 sphere 영상이 구성되면 코딩을 위해 2D 영상으로 프로젝션을 수행할 수 있다. 어플리케이션에 따라 복수의 영상을 통합 영상으로 만들기 위한 패킹 혹은 세부 영역의 영상으로 나누는 서브 픽처로 생성할 수 있다. 전술한 바와 같이 리전별 패킹 과정은 선택적(optional) 과정으로서 수행되지 않을 수 있으며, 이 경우 패킹 처리부는 생략될 수 있다. 입력된 데이터가 영상/음성/텍스트 추가 정보인 경우 추가 정보를 중심 영상에 추가하여 디스플레이 하는 방법을 알려줄 수 있으며, 추가 데이터도 함께 전송할 수 있다. 생성된 영상 및 추가된 데이터를 압축하여 비트 스트림으로 생성하는 인코딩 과정을 거쳐 전송 혹은 저장을 위한 파일 포맷으로 변환하는 인캡슐레이션 과정을 거칠 수 있다. 이 때 어플리케이션 혹은 시스템의 요구에 따라 수신부에서 필요로하는 파일을 추출하는 과정이 처리될 수 있다. 생성된 비트스트림은 전송처리부를 통해 전송 포맷으로 변환된 후 전송될 수 있다. 이 때, 송신측 피드백 처리부에서는 수신단에서 전달된 정보를 바탕으로 위치/시점/방향 정보와 필요한 메타데이터를 처리하여 관련된 송신부에서 처리하도록 전달할 수 있다.

도14는 3DoF+ 수신단의 구성을 나타낸다.

수신단(360 비디오 수신 장치)에서는 송신단에서 전달한 비트스트림을 수신한 후 필요한 파일을 추출할 수 있다. 생성된 파일 포맷 내의 영상 스트림을 피드백 처리부에서 전달하는 위치/시점/방향 정보 및 비디오 메타데이터를 이용하여 선별하며, 선별된 비트스트림을 디코더를 통해 영상 정보로 재구성할 수 있다. 패킹된 영상의 경우 메타데이터를 통해 전달된 패킹 정보를 바탕으로 언패킹을 수행할 수 있다. 송신단에서 패킹 과정이 생략된 경우, 수신단의 언패킹 또한 생략될 수 있다. 또한 필요에 따라 피드백 처리부에서 전달된 위치/시점/방향에 적합한 영상 및 필요한 컴포넌트를 선택하는 과정을 수행할 수 있다. 영상의 텍스처, 뎁스, 오버레이 정보 등을 재생하기 적합한 포맷으로 재구성하는 렌더링 과정을 수행할 수 있다. 최종 영상을 생성하기에 앞서 서로 다른 레이어의 정보를 통합하는 컴포지션 과정을 거칠 수 있으며, 디스플레이 뷰포트(viewport)에 적합한 영상을 생성하여 재생할 수 있다.

도 15는 OMAF 구조를 나타낸다.

360 비디오 기반 VR 시스템은 360 비디오 처리 과정을 기반으로 360 비디오에 대하여 사용자의 위치를 기준으로 서로 다른 방향(viewing orientation)에 대한 시각적/청각적 경험을 제공할 수 있다. 360 비디오에 대하여 사용자의 고정 위치에서의 서로 다른 방향에 대한 시작적/청각적 경험을 제공하는 서비스를 3DoF 기반 서비스라고 불릴 수 있다. 한편, 동일 시간대에서 임의의 위치 및 시점(viewing position)에서의 서로 다른 방향에 대한 확장된 시각적/청각적 경험을 제공할 수 있는 서비스는 6DoF (six degree of freedom) 기반 서비스라고 불릴 수 있다.

3DoF service를 위한 File format은 예를 들면 도15에 도시된 바와 같이 Head/eye tracking 모듈에 따라 rendering의 위치, 전송할 file의 정보, decoding 정보 등이 달라질 수 있는 구조를 가지고 있다. 그러나, 이러한 방식은 사용자의 위치 혹은 position에 따라 rendering의 정보/전송 내용, decoding의 정보가 달라지는 6DoF의 media file 전송에는 적합하지 않기에 수정이 필요하다.

도16은 사용자의 이동에 따른 미디어의 종류를 나타낸다.

실시예들은 사용자에게 몰입형 미디어/실감미디어(Immersive media)의 경험을 제공하기 위해, 6DoF contents를 제공하는 방안을 제안한다. 몰입형 미디어/실감미디어는 기존의 360 콘텐츠가 제공하는 가상의 환경에서 확대된 개념으로 기존의 360 콘텐츠가 (a)와 같은 형태로 사용자의 position 위치는 고정되어 있고, 회전에 대한 개념만 있었다면 몰입형 미디어/실감미디어는 (b) 혹은 (c) 와 같이 사용자에게 콘텐츠를 경험할 때 이동의 개념을 부여함으로써 가상의 공간에서 사용자의 이동/회전 등 더 다양한 감각적 경험을 제공할 수 있는 환경 혹은 콘텐츠를 의미할 수 있다.

(a)는 사용자의 포지션이 고정된 상태에서 사용자의 뷰가 회전하는 경우의 미디어 경험을 나타낸다.

(b) 는 사용자의 포지션이 고정된 상태에서 나아가 사용자의 머리가 추가적으로 움직일 수 있는 경우의 미디어 경험을 나타낸다.

(c) 는 사용자의 포지션이 움직일 수 있는 경우의 미디어 경험을 나타낸다.

실감 미디어 콘텐츠는 해당 콘텐츠를 제공하기 위한 6DoF비디오 및 6DoF오디오를 포함할 수 있으며, 6DoF 비디오는 실감미디어 콘텐츠 제공에 필요한 매 이동 때마다 새롭게 형성되는 3DoF 혹은 360비디오로 캡쳐되거나 재생되는 비디오 혹은 이미지를 의미 할 수 있다. 6DoF 콘텐츠는 3차원 공간 상에 나타내어지는 비디오 내지 이미지를 의미할 수 있다. 콘텐츠 내에서 이동이 고정된 상태라면 해당 콘텐츠는 기존의 360비디오와 같이 다양한 형태의 3차원 공간에서 나타내어질 수 있다. 예를 들어 구형 (Spherical)면 상에 나타내어질 수 있다. 콘텐츠 내에서 이동이 자유로운 상태라면 이동 경로 상에 사용자를 중심으로 3차원 공간이 매번 새롭게 형성되고 해당 위치의 콘텐츠를 사용자가 경험할 수 있다. 예를 들어 사용자가 처음 보는 위치에서의 구형(spherical)면 상에 나타내어진 영상을 경험하고, 3차원 공간에서 실제 사용자가 이동을 하였다면 이동한 위치를 중심으로 새로운 구형(spherical)면의 영상이 형성되고 해당 콘텐츠를 소비할 수 있다. 6DoF 오디오도 마찬가지로 실감형 미디어를 경험할 수 있도록 하는 콘텐츠를 제공하기 위한 오디오 콘텐츠로, 음향의 소비하는 위치가 이동함에 따른 공간적(spatial)오디오를 새롭게 형성하고 소비하기 위한 콘텐츠를 의미할 수 있다.

실시예들은 특히 6DoF 비디오를 효과적으로 제공하는 방안을 제안한다. 6DoF 비디오는 서로 다른 위치에서 두 개 이상의 카메라로 캡처 될 수 있다. 캡처된 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터 중 일부를 사용자의 초기 위치를 원점으로 하는 360비디오로 가공하여 렌더링 할 수 있으며 사용자의 위치가 이동하면 이동한 위치를 중심으로 새로운 360 비디오를 가공하여 렌더링 함으로써 6DoF비디오가 사용자에게 제공될 수 있다.

이하에서, 6DoF 비디오 서비스 제공을 위한 송신 방법 및 수신 방법을 설명한다.

도 17은 6DoF 비디오 제공을 위한 전체 아키텍처를 나타낸다.

앞서 정리한 일련의 과정들을 도17을 바탕으로 구체적으로 설명하자면 먼저 획득(Acquisition)단계로 6DoF contents 를 캡처를 위해 HDCA(High Density Camera Array), Lenslet (microlens) camera 등이 사용될 수 있으며, 6DoF 비디오 캡처를 위해 디자인 된 새로운 디바이스로 획득 될 수 있다. 획득된 영상은 Fig.3a와 같이 캡처한 카메라의 위치에 따라 생성된 이미지/비디오 데이터 집합이 여러 개 생성될 수 있다. 이 때 캡처 과정에서 카메라의 내부/외부 설정 값 등의 메타메이타가 생성될 수 있다. 카메라가 아닌 컴퓨터로 생성된 영상의 경우 캡처 과정이 갈음될 수 있다. 획득된 영상의 전처리(pre-processing)과정은 캡처된 이미지/비디오 및 캡처 과정에서 전달된 메타데이타(metadata)를 처리하는 과정일 수 있다. 이 준비 과정에서는 스티칭(Stitching) 과정, 색보정(color correction)과정, 프로젝션 과정, 코딩 효율을 높이기 위해 주요 시점 (primary view)와 부차 시점(secondary view)로 분리 하는 시점 분리(view segmenation)과정 및 인코딩 과정 등 전송 전 콘텐츠를 처리하는 모든 형태의 전처리 단계가 해당될 수 있다.

스티칭 과정은 각 카메라의 위치에서 360 방향으로 캡처된 영상을 각각의 카메라 위치를 중심으로 하는 파노라마 혹은 구형의 형태로 영상을 잇는 이미지/비디오를 만드는 과정일 수 있다. 프로젝션은 각각의 스티칭 결과 영상을 Fig3b와 같이 2D 이미지로 투영 시키는 과정을 의미하며, 2D 이미지로 맵핑한다고 표현할 수 있다. 각 카메라 위치에서 맵핑한 영상은 주요시점과 부차 시점으로 분리 하여 비디오 코딩 효율을 높이기 위해 시점별 다른 해상도(resolution)를 적용할 수 있으며, 주요 시점 내에서도 맵핑 영상의 배치나 해상도(resolution)를 달리 함으로써 코딩 시 효율을 높일 수 있다. 부차 시점은 캡처 환경에 따라 없을 수도 있다. 부차 시점은 주요 시점에서 또 다른 주요 시점으로 사용자가 이동할 경우 이동 과정에서 재생되어야 하는 이미지/비디오를 의미하며 주요 시점에 비해 낮은 해상도를 가질 수도 있으나 필요에 따라 동일한 해상도를 가질 수도 있다. 때에 따라서는 부차 시점은 수신기에서 가상의 정보로 새롭게 생성 될 수 있다.

실시예에 따라 전처리 과정으로 에디팅(editing)과정 등을 더 포함할 수 있다. 이 과정에서 프로젝션 전 후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있으며, 전처리 과정에서도 메타메이타가 생성될 수 있다. 또한 이미지/비디오 제공시 가장 처음 재생해야 하는 초기 시점, 사용자의 초기 위치 및 ROI(Region of Interest)등에 관한 메타메이타가 생성될 수 있다.

미디어 전송 단계는 전처리 과정에서 얻어진 이미지/비디오 데이터 및 메타메이타들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있으며, 전처리 된 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있으며, 이 데이터들은 온디맨드(on demand) 방식으로 수신측으로 전달될 수 있다.

프로세싱 과정은 수신된 이미지/비디오 데이터 및 메타메이타를 디코딩, 3차원 모델로 맵핑 혹은 프로젝션이라고도 불릴 수 있는 리-프로젝션(re-projection) 하는 과정, 가상 시점의 생성 및 합성 과정 등 이미지/비디오를 재생하기 위한 이미지 생성 전 모든 단계가 프로세싱(processing) 단계에 포함될 수 있다. 맵핑 되는 3차원 모델 혹은 프로젝션 맵은 기존의 360비디오와 같이 구형(sphere), 큐브(cube), 실린더(cylinder), 또는 피라미드(pyramid)가 있을 수 있으며 기존의 360 비디오의 프로젝션 맵의 변형된 형태가 될 수 있으며, 경우에 따라 자유형 형태의 프로젝션 맵이 될 수 있다.

가상 시점의 생성 및 합성 과정은 주요 시점과 부차 시점 사이에 혹은 주요 시점과 주요 시점 사이에 사용자가 이동할 경우 재생되어야 하는 이미지/비디오 데이터를 생성하고 합성하는 과정을 의미할 수 있다. 가상 시점 생성을 위해 캡쳐 및 전처리 과정에서 전달된 메타메이타를 처리하는 과정이 필요할 수 있고, 경우에 따라서는 가상 시점에서 360 이미지/비디오 전체가 아닌 일부만 생성/합성할 수도 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing)과정, 업스케일링(up scaling), 다운 스케일링(down scaling) 과정 등이 더 포함될 수도 있다. 에디팅 과정에서 프로세싱 과정 후에 재생 전 필요한 추가 편집 과정이 적용될 수 있다. 필요에 따라서는 전송 받은 이미지/비디오를 업스케일링 혹은 다운 스케일링 하는 작업이 수행될 수도 있다.

렌더링 과정은 전송 혹은 생성되어 리프로젝션 된 이미지/비디오를 디스플레이 할 수 있도록 렌더링 하는 과정을 의미할 수 있다. 때에 따라서는 렌더링과 리프로젝션 과정을 렌더링이라고 통칭하기도 한다. 따라서 렌더링 과정 중에 리프로젝션 과정이 포함될 수 있다. 리프로젝션은 fig.3c와 같은 형태로 사용자 중심의 360 비디오/이미지와 사용자가 이동 방향에 따라 각 이동한 위치를 중심으로 형성되는 360 비디오/이미지가 형성되는 형태로 다수의 리프로젝션 결과물이 있을 수 있다. 사용자는 디스플레이 할 디바이스에 따라 360 비디오/이미지의 일부 영역을 볼 수 있으며, 이 때 사용자가 보게 되는 영역은 fig.3d와 같은 형태가 될 수 있으며, 사용자가 이동하는 경우 전체 360 비디오/이미지가 렌더링 되는 것이 아니라 사용자가 보고 있는 위치에 해당되는 영상만 렌더링 될 수 있다. 또한 사용자의 위치와 이동 방향에 관한 메타메이타를 전달 받아 미리 움직임을 예측하고 이동할 위치의 비디오/이미지를 추가로 렌더링할 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신 측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 6DoF콘텐츠와 사용자간의 인터렉티비티 (interactivity)가 일어날 수 있으며, 실시예에 따라 피드백 과정에서 사용자의 머리와 포지션 위치 정보 (head/position orientation) 및 사용자가 현재 보고 있는 영역(viewport)에 대한 정보 등이 전달 될 수도 있다. 해당 정보는 피드백 과정에서 송신측 혹은 서비스 제공자 측에 전달 될 수 있으며, 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

사용자의 위치 정보는 사용자의 머리 위치, 각도, 움직임 및 이동 거리 등에 대한 정보를 의미할 수 있으며, 해당 정보를 바탕으로 사용자가 보고 있는 위치(viewport) 정보가 계산 될 수 있다.

송신측에서의 실시예들은 6DoF 비디오 전송 장치와 관련 될 수 있다. 실시예들에 따른 6DoF 비디오 전송 장치는 전술한 준비 과정 및 동작들을 수행할 수 있다. 실시예들에 따른 6DoF 비디오/이미지 전송 장치는 데이터 입력부, 깊이 정보 처리부 (도시되지 않음), 스티처(Stitcher), 프로젝션 처리부, 시점 분리 처리부, 시점별 패킹 처리부, 메타메이타 처리부, 피드백 처리부, 데이터 인코더, 인캡슐레이션 처리부, 전송 처리부 및/또는 전송부를 내/외부 구성 요소로 포함할 수 있다.

데이터 입력부는 한 군데 이상의 위치에서 한 개 이상의 카메라로 캡쳐된 각 시점별 이미지/비디오/깊이정보/오디오 데이터를 입력 받을 수 있다. 데이터 입력부는 캡처 과정에서 발생된 메타메이타를 비디오/이미지/깊이정보/오디오 데이터와 함께 입력 받을 수 있다. 데이터 입력부는 입력된 각 시점별 비디오/이미지 데이터를 스티처로 전달하고, 캡쳐 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다.

스티처는 캡쳐된 시점별/위치별 이미지/비디오들에 대한 스티칭 작업을 수행할 수 있다. 스티처는 스티칭된 360 비디오 데이터를 프로젝션 처리부로 전달할 수 있다. 스티처는 필요한 경우 메타메이타 처리부로부터 전달받아 스티칭을 할 수 있다. 스티처는 스티칭 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 스티처는 깊이(depth)정보 처리부 (도식되지 않음) 에서 전달 받은 위치값을 활용하여 비디오/이미지 스티칭 위치를 다르게 할 수 있다. 스티처는 스티칭 과정에서 발생된 메타메이타를 처리부로 전달할 수 있다. 전달 되는 메타메이타는 스티칭 수행 여부, 스티칭 타입, 주요 시점(primary view)과 부차 시점(secondary view)의 ID 및 해당 시점의 위치 정보 등이 있을 수 있다.

프로젝션 처리부는 스티칭된 6DoF 비디오 데이터를 2D 이미지 프레임에 프로젝션할 수 있다. 프로젝션 처리부는 스킴(scheme)에 따라 다른 형태의 결과물을 얻을 수 있는데, 해당 스킴은 기존의 360비디오의 프로젝션 스킴과 유사할 수도 있고, 6DoF를 위해 새롭게 제안된 스킴이 적용 될수도 있다. 또한 각 시점별 서로 다른 스킴을 적용할 수 있다. 깊이 정보 처리부는 깊이 정보를 프로젝션 처리부로 전달하여 맵핑 결과 값을 다르게 할 수 있다. 프로젝션 처리부는 필요한 경우 메타메이타 처리부로부터 프로젝션에 필요한 메타메이타를 전달받아 프로젝션 작업에 이용할 수 있으며, 프로젝션 처리부는 프로젝션 과정에서 발생된 메타메이타를 메타메이타 처리부로 전달 할 수 있다. 해당 메타메이타는 스킴의 종류, 프로젝션 수행 여부, 주요시점과 부차 시점의 프로젝션 후의 2D 프레임의 ID 및 시점별 위치 정보 등이 있을 수 있다.

시점별 패킹 처리부는 전술한 바와 같이 주요 시점과 부차 시점으로 나누고, 각 시점 내 리전별 패킹 과정을 수행할 수 있다. 즉 시점별 패킹 처리부는 각 시점/위치별 프로젝션된 6DoF 비디오 데이터를 주요 시점과 부차 시점으로 분류하여 코딩 효율을 높이기 위해 주요 시점과 부차 시점을 다른 해상도를 가질 수 있도록 하거나 각 시점의 비디오 데이터를 회전, 재배열 달리하고 각 시점 안에서 나누어진 리전별 해상도를 다르게 할 수도 있다. 주요 시점과 부차 시점을 분류하는 과정은 생략될 수 있으며, 선택적인 과정일 수 있으며, 리전별 다른 해상도를 가지거나 배치를 다르게 하는 것도 선택적으로 수행될 수 있다. 시점별 패킹 처리부가 수행될 경우에 패킹은 메타메이타 처리부로부터 전달 받은 정보를 활용하여 수행 될 수 있으며, 패킹 과정에서 발생한 메타메이타를 메타메이타 처리부로 전달 할 수도 있다. 시점별 패킹 처리 과정에서 정의되는 메타메이타는 주요 시점과 부차 시점을 분류하기 위한 각 시점의 ID와 시점 내 리전별 적용되는 사이즈, 회전 각 리전별 위치 값 등이 될 수 있다.

전술한 스티처, 프로젝션 처리부 및/또는 시점별 패킹 처리부는 실시예에 따라 하나 이상의 하드웨어 컴포넌트 혹은 스트리밍/다운로드 서비스 내의 인제스트 서버(Ingest server)에서 일어날 수도 있다.

메타메이타 처리부는 캡쳐 과정, 스티칭 과정, 프로젝션 과정, 시점별 패킹 과정, 인코딩 과정, 인캡슐레이션 과정 및/또는 전송을 위한 처리 과정에서 발생할 수 있는 메타메이타들을 처리할 수 있다. 메타메이타 처리부는 각 프로세스에서 전달 받은 메타메이타를 활용하여 6DOF 비디오 서비스를 위한 새로운 메타메이타를 생성할 수 있다. 실시예에 따라 메타메이타 처리부는 새롭게 생성된 메타메이타를 시그널링 테이블의 형태로 생성할 수도 있다. 메타메이타 처리부는 전달받거나 메타메이타 처리부에서 새롭게 생성/가공된 메타메이타를 다른 요소들에 전달 할 수 있다. 메타메이타 처리부는 생성되거나 전달 받은 메타메이타를 수신측으로 전송될 수 있도록 데이터 인코더, 인캡슐레이션 처리부 및/또는 전송 처리부에 전달 할 수 있다.

데이터 인코더는 2D 이미지 프레임 상에 프로젝션 된 6DoF 비디오 데이터 및/또는 시점별/리전별 패킹된 비디오 데이터를 인코딩 할 수 있다. 인코딩은 다양한 포맷으로 수행 될 수 있으며, 시점별 분류가 되었다면, 시점별 인코딩 결과 값을 분리하여 전달 할 수도 있다.

인캡슐레이션 처리부는 인코딩된 6DoF 비디오 데이터 및/또는 관련 메타메이타를 파일 등의 형태로 인캡슐레이션 할 수 있다. 관련 메타메이타는 전술한 메타메이타 처리부로부터 전달 받을 수 있다. 인캡슐레이션 처리부는 해당 데이터를 ISOBMFF, OMAF 등의 파일 포맷으로 인캡슐레이션 하거나 DASH 세그먼트 등의 형태로 처리할 수 있으며, 새로운 형태의 파일 포맷으로 처리될 수도 있다. 메타메이타는 파일 포맷 내 다양한 레벨에 존재하는 박스(box)에 포함되거나 별로의 트랙내의 데이터로 포함하거나 메타메이타만 파일로 인캡슐레이션 할 수 있다. 시점별 별도의 인캡슐레이션 처리가 가능할 수도 있고, 시점별 필요한 메타메이타와 해당 비디오 정보를 함께 인캡슐레이션 할 수도 있다.

전송 처리부는 포맷에 따라 인캡슐레이션된 비디오 데이터에 전송을 위한 추가 처리를 가할 수 있다. 해당 처리는 메타메이타 처리부에서 전달 받은 메타메이타를 활용하여 작동할 수 있다. 전송부는 전송 처리부로부터 전달 받은 데이터 및/또는 메타메이타를 방송망 및/또는 브로드밴드를 통해 전송될 수 있다. 전송부는 방송망및/또는 브로드밴드를 통한 전송 시 필요한 구성 요소가 포함될 수 있다.

피드백 처리부(송신측)는 및/또는 네트워크 인터페이스(도시되지 않음)를 추가로 더 포함할 수 있다. 네트워크 인터페이스는 실시예들에서 후술 되는 수신 장치로부터 피드백 정보를 전달 받고 피드백 처리부(송신측) 으로 전달 할 수 있다. 피드백 처리부는 수신측에서 전달받은 정보를 스티칭, 프로젝션, 시점별 패킹, 인코터, 인캡슐레이션 처리부 및/또는 전송 처리부로 전달 할 수 있으며, 메타메이타 처리부로 전달하여 메타메이타 처리부가 다른 요소들에 전달하거나 메타메이타 처리부에서 새로운 메타메이타를 생성/가공하여 전달 할 수 있다. 실시예들의 또 다른 실시예에 따르면 피드백 처리부가 네트워크 인터페이스로부터 전달 받은 위치/시점 정보를 메타메이타 처리부로 전달하며, 메타메이타 처리부는 프로젝션, 시점별 패킹 처리부, 인캡슐레이션 처리부 및/또는 데이터 인코더로 해당 위치/시점 정보를 전달하여 현재 사용자의 시점/위치에 맞는 정보와 주변 정보만을 전송하여 코딩 효율을 높일 수 있다.

전술한 6DoF비디오 전송 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도19는 6DoF 비디오 수신 장치의 구성을 나타낸다.

실시예들은 수신 장치와 관련될 수 있다. 실시예들에 따르면 6DoF 비디오 수신 장치는 수신부, 수신 처리부, 디캡슐레이션 처리부, 메타메이타 파서, 피드백 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상시점 생성/합성부 및/또는 렌더러를 구성요소로 가질 수 있다.

수신부는 전술한 6DoF송신 장치로부터 비디오 데이터를 수신할 수 있다. 비디오 데이터가 전송되는 채널에 따라 수신부는 방송망 또는 브로드밴드를 통해 수신할 수도 있다.

수신 처리부는 수신된 6DoF 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 전송 처리부에서 수행된 과정의 역순으로 수행하거나 프로토콜 처리 방법에 따른 과정을 거쳐 전송 처리부 이전 단계에서 얻은 데이터를 획득한다. 수신 처리부는 획득한 데이터를 디캡슐레이션 처리부로 전달하고, 수신부로 부터 받은 메타메이타 정보를 메타메이타 파서로 전달할 수 있다.

디캡슐레이션 처리부는 수신 처리부로부터 전달받은 파일 형태의 6DoF 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 해당 파일 포맷에 맞추어 파일들을 디캡슐레이션하여, 6DoF 비디오 및/또는 메타메이타를 획득할 수 있다. 획득된 6DoF 비디오 데이터는 데이터 디코더로 보낼 수 있고, 6DoF 메타메이타는 메타메이타 파서로 전달할 수 있다. 디캡슐레이션 처리부는 필요에 따라 메타메이타 파서로부터 디캡슐레이션에 필요한 메타메이타를 전달받을 수도 있다.

데이터 디코더는 6DoF 비디오 데이터에 대한 디코딩을 수행할 수 있다. 데이터 디코더는 메타메이타 파서로부터 디코딩에 필요한 메타메이타를 전달 받을 수 있다. 데이터 디코딩 과정에서 획득 된 메타메이타는 메타메이타 파서로 전달되어 처리될 수 있다.

메타메이타 파서는 6DoF 비디오 관련 메타메이타에 대한 파싱/디코딩을 수행할 수 있다. 메타메이타 파서는 획득한 메타메이타를 디캡슐레이션 처리부, 데이터 디코더, 리-프로젝션 처리부, 가상 시점 생성/합성부 및/또는 렌더러로 전달 할 수도 있다.

리-프로젝션 처리부는 디코딩된 6DoF 비디오 데이터에 대하여 리-프로젝션을 수행할 수 있다. 리-프로젝션 처리부는 각 시점/위치별 6DoF 데이터를 각각 3차원 공간으로 리-프로젝션할 수 있다. 3차원 공간은 사용되는 3차원 모델에 따라 다른 형태를 가질 수도 있고, 변환 과정을 거처 동일한 형태의 3차원 모델로 리-프로젝션 될 수도있다. 리-프로젝션 처리부는 메타메이타 파서로부터 필요한 메타메이타를 전달 받을 수 있다. 리-프로젝션 과정에서 정의된 메타메이타를 메타메이타 파서로 전달할 수도 있다. 예를 들어 각 시점/위치 별 6DoF 비디오 데이터의 3차원 모델을 메타메이타 파서로 전달 받을 수 있고, 각 시점/위치별 비디오 데이터의 3차원 모델이 다르고 모든 시점의 비디오 데이터를 동일한 3차원 모델로 리-프로젝션 되었을 경우 어떤 모델이 적용 되었는지 메타메이타 파서로 전달할 수 있다. 때에 따라서는 리-프로젝션에 필요한 메타메이타를 이용하여, 3차원 공간 내에 특정 영역만 리-프로젝션 할 수 있으며, 한 개 이상의 특정 영역을 리-프로젝션 할 수도 있다.

가상 시점 생성/합성부는 전송되어 리-프로젝션 된 3차원 공간상에서 수신된 6DoF 비디오 데이터에 포함되어 있지 않으나 재생이 필요한 가상의 시점 영역에서 비디오 데이터를 주어진 데이터를 활용하여 생성하고, 가상 시점을 중심으로 새로운 시점/위치에서의 비디오 데이터를 합성하는 과정을 수행할 수 있다. 새로운 시점의 비디오 데이터를 생성할 때 깊이(depth)정보 처리부 (도시하지 않음)의 데이터를 활용할 수 있다. 가상 시점 생성/합성부는 메타메이타 파서로부터 전달 받은 특정 영역과 수신 되지 않은 주변 가상 시점 영역의 일부만 생성/합성 할 수 있다. 가상 시점 생성/합성부는 선택적으로 수행될 수 있으며, 필요한 시점 및 위치에 해당하는 비디오 정보가 없을 때 수행된다.

렌더러는 리-프로젝션 혹은 가상 시점 생성/합성부에서 전달된 6DoF 비디오 데이터를 렌더링 할 수 있다. 전술 한 바와 같이 3차원 공간상에서 리-프로젝션 혹은 가상 시점 생성/합성부에서 일어나는 모든 과정은 렌더러와 통합되어 렌더러 내에서 이 과정들이 진행될 수 있다. 실시예에 따라 사용자의 시점/위치 정보에 따라 사용자가 보고 있는 부분 및 예상 경로 상의 일부만 렌더링 할 수도 있다.

실시예들에서 피드백 처리부(수신측) 및/또는 네트워크 인터페이스(도시되지 않음)을 추가적인 구성요소로 포함할 수 있다. 수신측 피드백 처리부는 렌더러, 가상 시점 생성/합성부, 리-프로젝션 처리부, 데이터 디코더, 디캡슐레이션 및/또는 VR 디스플레이로부터 피드백 정보를 획득하여 처리할 수 있다. 피드백 정보는 사용자의 뷰포트 정보, 헤드 및 포지션 오리엔테이션 정보, 게이즈(gaze) 정보, 제스처(gesture) 정보 등을 포함할 수 있다. 네트워크 인터페이스는 피드백 정보를 피드백 처리부로부터 전달 받고, 전송 장치로 전송할 수 있으며, 수신측의 각 구성요소에서 소비될 수도 있다. 예를 들면, 디캡슐레이션 처리부에서는 피드백 처리부로 부터 사용자의 위치/시점 정보를 전달 받아 수신된 6DoF 비디오 중에 해당 위치의 정보가 있을 경우 해당 위치 정보만 디캡슐레이션, 디코딩, 리-프로젝션, 렌더링을 할 수 있다. 만약 해당 위치의 정보가 없을 경우 해당 위치 주변에 위치한 6DoF 비디오를 모두 디캡슐레이션, 디코딩, 리-프로젝션, 가상 시점 생성/합성, 렌더링의 과정을 거칠 수 있도록 할 수 있다.

전술한 6DoF비디오 수신 장치의 구성 요소들은 하드웨어로 구현되는 하드웨어 구성 요소 일 수 있다. 실시예에 따라 각 구성요소들은 변경, 생략 되거나 새로운 구성요소를 추가 혹은 다른 구성요소로 대체, 통합될 수 있다.

도20은 6 DoF 비디오 전송/수신 장치의 구성을 나타낸다.

6DoF 콘텐츠는 파일 형태로 제공되거나 DASH 등과 같이 세그먼트(segment) 기반 다운로드 또는 스트리밍 서비스의 형태로 제공될 수 있으며, 새로운 파일 포맷 혹은 스트리밍/다운로드 서비스 방법이 대신 쓰일 수도 있다. 여기서 6DoF 콘텐츠는 실감미디어(immersive media) 콘텐츠 혹은 라이트필드(light field) 콘텐츠, 혹은 포인트 클라우드(point cloud) 콘텐츠로 불릴 수 있다.

전술한 바와 같이 해당 파일 제공 및 스트리밍/다운로드 서비스를 위한 각 과정은 아래와 같이 상세하게 설명될 수 있다.

Acquisition : multi view/stereo/depth image를 획득하기 위한 camera 로 부터 capture 후 얻어지는 output 이며, 2개 이상의 video/image및 오디오 데이터가 얻어지게 되고, depth camera가 있는 경우 각 scene에서의 depth map도 획득(acquisition) 될 수 있다.

Audio Encoding : 6DoF 오디오 데이터는 오디오 전처리 과정, 인코딩 과정을 거칠 수 있다. 이 과정에서 메타메이타가 생성될 수 있으며, 관련 메타메이타는 전송을 위해 인캡슐레이션/인코딩 과정을 거칠 수 있다.

Stitching, Projection, mapping, and correction : 6DoF 비디오 데이터는 전술한 바와 같이 다양한 위치에서 획득된 영상의 에디팅, 스티칭, 프로젝션 과정을 거칠 수 있다. 이 과정은 실시예에 따라 일부만 수행되기도 하고, 전체가 생략되어 수신기측에서 수행 될 수도 있다.

View segmentation/packing : 전술한 바와 같이 시점 분리/패킹 처리부는 스티칭 된 영상을 바탕으로 수신기 측에서 요구 되는 주요 시점,Primary View(PV) 위치의 영상을 분리해 내어 패킹 하고, 주요 시점으로 분리되어 패킹 된 후 나머지 영상을 부차 시점, Secondary View(SV)로 패킹하는 전처리 과정을 거칠 수 있다. 패킹하는 과정에서 코딩 효율을 높이기 위해 주요 시점과 부차 시점의 사이즈, 해상도 등이 조정될 수 있다. 동일한 성격의 시점 내에서도 리전별 다른 조건으로 해상도를 가지거나 리전에 따라 회전, 재배치 될 수 있다.

Depth sensing and/or estimation: 깊이 캡처 카메라 (depth camera)가 존재하지 않는 경우 획득된 2개 이상의 영상에서 깊이 맵을 추출해 내는 과정을 수행하기 위함이며 깊이 캡처 카메라 (depth camera)가 있는 경우 영상 획득 위치에서 영상 내 포함된 각 오브젝트(object)의 깊이가 얼만큼 되는지 위치 정보를 저장하기 위한 과정을 수행할 수 있다.

Point Cloud Fusion/extraction 미리 획득 된 깊이 맵을 인코딩 가능한 형태의 데이터로 변형하는 과정을 수행할 수 있다. 예를 들어 포인트 클라우드 데이터 타입으로 변형하여 3차원에서 영상의 각 오브젝트의 위치 값을 할당하는 전처리 과정을 수행할 수 있으며, 포인터 클라우드 데이터 타입이 아닌 3차원 공간 정보를 표현할 수 있는 데이터 타입이 대신 적용될 수 있다.

PV encoding/SV encoding/light field/point cloud encoding : 시점별로 미리 패킹되거나 깊이 정보 및/또는 위치 정보는 각각 이미지 인코딩 내지 비디오 인코딩 될 수 있다. 동일한 시점의 같은 콘텐츠라도 리전별로 다른 비트 스트림으로 인코딩될 수도 있다. MPEG-I에서 정의될 새로운 codec 및 HEVC-3D, OMAF++ 등 media format이 될 수 있다.

File encapsulation : 전술한 대로 인코딩된 6DoF 비디오 데이터는 인캡슐레이션 처리부인 File-encapsulation에 의해 ISOBMFF 등의 파일 포맷으로 처리될 수 있다. 또는 인코딩 된 6DoF 비디오 데이터는 세그먼트들로 처리할 수 있다.

Metadata(including depth information) : 6DoF 비디오 데이터 처리와 같이 획득, 스티칭, 프로젝션, 시점별 분리/패킹, 인코딩, 인캡슐레이션 과정중에 발생한 메타메이타를 메타메이타 처리부로 전달하거나 메타메이타 처리부에서 생성된 메타메이타를 각 과정으로 전달 할 수 있다. 또한 송신측에서 생성된 메타메이타는 인캡슐레이션 과정에서 하나의 트랙 혹은 파일로 생성하여 수신측으로 전달 할 수 있다. 수신측에서는 방송망이나 브로드밴드를 통해 별도의 파일 혹은 파일 내 트랙으로 저장되어 있는 메타메이타를 수신할 수 있다.

Delivery : 파일 및/또는 세그먼트들은 DASH 혹은 유사한 기능을 가진 새로운 모델을 기반으로 전송을 위한 개별 트랙에 포함될 수 있다. 이때 전송을 위해 MPEG DASH, MMT및/또는 새로운 표준이 적용될 수 있다.

File decapsulation : 수신 장치는 6DoF 비디오/오디오 데이터 수신을 위한 처리를 수행할 수 있다.

Audio deconding/Audio rendering/Loudspeakers/headphones : 6DoF 오디오 데이터는 오디오 디코딩, 렌더링 과정을 거쳐 스피커, 헤드폰을 통해 사용자에게 제공될 수 있다.

PV/SV/light field/point cloud decoding : 6DoF 비디오 데이터는 이미지 내지 비디오 디코딩 할 수 있다. 디코딩에 적용되는 코덱은 HEVC-3D, OMAF++ 및 MPEG에서 6DoF를 위해 새롭게 제안되는 코덱이 적용될 수 있다. 이 때 주요 시점(PV)와 부차 시점(SV)이 분리되어 각 시점 패킹 내에서 비디오 내지 이미지가 각각 디코딩 될 수 있고, 시점 분류와 상관없이 비디오 내지 이미지 디코딩이 될 수 있다. 또한 위치, 깊이 정보를 가지고 있는 라이트필드와 포인트 클라우드 디코딩이 먼저 이루어지고나서 헤드, 포지션, 시선 트래킹의 피드백을 먼저 전달하고 사용자가 위치한 주변부 시점의 이미지 내지 비디오만 분리해 내어 디코딩 될 수도 있다.

Head/eye/position tracking : 전술한 바와 같이 사용자의 헤드, 포지션, 게이즈, 뷰포트 정보 등을 획득, 처리할 수 있다.

Point Cloud rendering : 캡쳐한 비디오/이미지 데이터를 3차원 공간상에 리-프로젝션 할 때 3차원의 공간 위치를 설정하고, 수신한 비디오/이미지 데이터에서 확보하지 못하였으나 사용자가 이동 가능한 위치인 가상 시점의 3차원 공간을 생성하는 과정을 수행한다.

Virtual view synthesis : 전술한 바와 같이 사용자가 위치한 공간에 6DoF 비디오 데이터가 없을 경우 사용자 위치/시점 주변에 이미 확보된 6DoF 비디오 데이터를 활용하여 새로운 시점의 비디오 데이터를 생성하고 합성하는 과정을 수행한다. 실시예에 따라 가상 시점 생성 및/또는 합성 과정은 생략될 수 있다.

Image composition, and rendering : 전술한 바와 같이 사용자의 위치를 중심으로 한 영상을 렌더링 하기 위한 과정으로 사용자의 위치 및 시선에 따라 디코딩 된 비디오 데이터를 이용하거나 가상 시점 생성/합성으로 만들어진 사용자 주변의 비디오 및 이미지를 렌더링 할 수 있다.

도21은 6DoF 공간을 나타낸다.

실시예들에서 프로젝션 전 또는 리-프로젝션 후의 6DoF 공간에 대해 기술하고 그에 대한 시그널링을 수행하기 위하여 도 21과 같은 개념을 사용할 수 있다.

6DoF 공간은 360비디오 혹은 3DoF 공간이 야(Yaw), 피치(Pitch), 롤(Roll)로 설명할 수 있는 것과 달리 이동의 방향을 레이셔널(rational)과 트렌스레이션(translation) 두 종류로 나뉠 수 있다. 레이셔널 이동은 a와 같이 기존의 3DoF 의 방향을 설명한 것과 마찬가지로 야, 피치, 롤 로 설명할 수 있으며 방향의 이동(orientation movement)으로 불릴 수도 있다. 반면 트렌스레이션 이동의 경우는 b와 같이 포지션의 이동으로 불릴 수 있다. 왼쪽/오른쪽(Left/Right), 앞/뒤(Forward/Backward), 위/아래(Up/down) 방향 중 축이 어디로 이동했는지 알려 줄 수 있는 것으로 한 축 이상의 값을 정의하여 중심축의 이동을 설명할 수 있다.

실시예들의 특징은 6DoF 비디오 서비스 및 스트리밍을 위한 아키텍쳐를 제안하고 시그널링 및 파일 저장 방법의 기본 메타데이터를 제안하여 향후 6DoF 관련 메타데이터 및 시그널링 확장을 위한 발명에 활용될 수 있다.

- 제안한 6DoF 송,수신기 아키텍처를 바탕으로 각 과정마다 발생하는 메타데이터를 확장할 수 있다.

- 제안한 아키텍처의 과정간에 발생하는 메타데이터를 제안할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 서비스를 제공하는 콘텐츠의 6DoF 비디오 관련 파라미터를 ISOBMFF 등 파일에 저장 및 시그널링 할 수 있다.

- 제안한 메타데이터를 바탕으로 추후 추가/수정/확장하여 6DoF 비디오 스트림의 SEI 혹은 VUI를 통해 6DoF 비디오 메타데이터 저장 및 시그널링을 할 수 있다.

리전(리전별 패킹에서의 의미, Region) : 리전(Region) 은 2D 이미지에 프로젝션된 360 비디오 데이터가 리전별 패킹(region-wise packing) 을 통해 팩드 프레임 내에서 위치하게 되는 영역을 의미할 수 있다. 여기서의 리전은 문맥에 따라 리전별 패킹에서 사용되는 리전을 의미할 수 있다. 전술한 바와 같이 리전들을 2D 이미지를 균등하게 나누어 구분되거나, 프로젝션 스킴 등에 따라 임의로 나누어져 구분될 수도 있다.

리전(일반적 의미, region) : 전술한 리전별 패킹에서의 리전과 달리, 사전적 의미로서 리전(region) 이라는 용어가 사용될 수도 있다. 이 경우 리전이란 사전적 의미인 '영역', '구역', '일부분' 등의 의미를 가질 수 있다. 예를 들어 후술할 페이스(face) 의 일 영역을 의미할 때, '해당 페이스의 한 리전' 등과 같은 표현이 사용될 수 있다. 이 경우 리전은 전술한 리전별 패킹에서의 리전과는 구분되는 의미로서, 양자는 서로 무관한, 다른 영역을 지시할 수 있다.

픽쳐 : 픽쳐는 360 비디오 데이터가 프로젝션된 2D 이미지 전체를 의미할 수 있다. 실시예에 따라 프로젝티드 프레임 내지는 팩드 프레임이 픽쳐가 될 수 있다.

서브-픽쳐 : 서브 픽쳐는 전술한 픽쳐의 일부분을 의미할 수 있다. 예를 들어 타일링 등을 수행하기 위해 픽쳐가 여러 서브-픽쳐로 나누어질 수 있다. 이 때 각 서브 픽쳐가 타일이 될 수 있다. 구체적으로, 타일 내지 MCTS 를 기존의 HEVC 와 호환되는 픽쳐 형태로 재구성하는 동작을 MCTS 추출(extraction) 이라고 할 수 있다. 이 MCTS 추출의 결과물은 원래의 타일 내지 MCTS 가 속하는 픽쳐의 서브-픽쳐일 수 있다.

타일 : 서브 픽처의 하위 개념으로서, 서브 픽처가 타일링을 위한 타일로 쓰일 수 있다. 즉, 타일링에 있어서는 서브 픽처와 타일은 동일한 개념일 수 있다. 구체적으로, 본디 타일은 병렬 디코딩을 가능케 하기 위한 툴이나, VR 에 있어서는 독립 디코딩을 위한 툴일 수 있다. VR 에 있어서 타일은, 템포럴 인터 프리딕션(temporal inter prediction) 의 범위를 현재의 타일 내부 범위로 제한한 MCTS (Motion Constrained Tile Set) 을 의미할 수 있다. 이에 이 문서에서 타일은 MCTS 로도 불릴 수 있다.

슈페리컬 리전(Spherical region) : 슈페리컬 리전 내지 슈피어 리전(Sphere region) 은, 360 비디오 데이터가 수신측에서 3D 공간(예를 들어 구면) 상에 렌더링될 때, 그 구면 상의 일 영역을 의미할 수 있다. 여기서 슈페리컬 리전은, 리전별 패킹에서의 리전과는 무관하다. 즉, 슈페리컬 리전이 리전별 패킹에서 정의되었던 리전과 같은 영역을 의미할 필요는 없다. 슈페리컬 리전은 렌더링되는 구면 상의 일 부분을 의미하는 데 사용되는 용어로서, 여기서의 '리전' 은 사전적 의미로서의 '영역'을 뜻할 수 있다. 문맥에 따라 슈페리컬 리전이 단순히 리전이라고 불릴 수도 있다.

페이스(face) : 페이스는 프로젝션 스킴에 따라 각 면을 부르는 용어일 수 있다. 예를 들어 큐브맵 프로젝션이 사용되는 경우, 앞면, 뒷면, 양 옆면, 윗면, 아랫면 등은 페이스라고 불릴 수 있다.

실시예들에 따른 Point Cloud 콘텐츠 제공을 위한 장치가 도면과 같을 수 있다.

실시예들에서는 사용자에게 VR (Virtual Reality, 가상현실), AR (Augmented Reality, 증강현실), MR (Mixed Reality, 혼합현실), 및 자율 주행 서비스 등의 다양한 서비스를 제공하기 위하여 Point Cloud 콘텐츠를 제공하는 방안을 제공한다.

Point Cloud 콘텐츠 서비스를 제공하기 위하여, 먼저 Point Cloud 비디오가 획득될 수 있다. 획득된 Point Cloud 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 Point Cloud 비디오로 가공하여 렌더링 할 수 있다. 이를 통해 Point Cloud 비디오가 사용자에게 제공될 수 있다. 실시예들은 이러한 일련의 과정을 효과적으로 수행하기 위해 필요한 방안을 제공한다.

Point Cloud 콘텐츠 서비스를 제공하기 위한 전체의 과정은 획득 과정, 인코딩 과정, 전송 과정, 디코딩 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

Point Cloud Compression 시스템은 전송 디바이스 및 수신 디바이스를 포함할 수 있다. 전송 디바이스는 Point Cloud 비디오를 인코딩하여 비트스트림을 출력할 수 있으며, 이를 파일 또는 스트리밍 (스트리밍 세그먼트) 형태로 디지털 저장매체 또는 네트워크를 통하여 수신 디바이스로 전달할 수 있다. 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다.

상기 전송 디바이스는 개략적으로 Point Cloud 비디오 획득부, Point Cloud 비디오 인코더, 전송부를 포함할 수 있다. 상기 수신 디바이스는 개략적으로 수신부, Point Cloud 비디오 디코더 및 렌더러를 포함할 수 있다. 상기 인코더는 Point Cloud 비디오/영상/픽처/프레임 인코딩 장치라고 불릴 수 있고, 상기 디코더는 Point Cloud 비디오/영상/픽처/프레임 디코딩 장치라고 불릴 수 있다. 송신기는 Point Cloud 비디오 인코더에 포함될 수 있다. 수신기는 Point Cloud 비디오 디코더에 포함될 수 있다. 렌더러는 디스플레이부를 포함할 수도 있고, 렌더러 및/또는 디스플레이부는 별개의 디바이스 또는 외부 컴포넌트로 구성될 수도 있다. 상기 전송 디바이스 및 상기 수신 디바이스는 피드백 과정을 위한 별도의 내부 또는 외부의 모듈/유닛/컴포넌트를 더 포함할 수도 있다.

Point Cloud 비디오 획득부는 Point Cloud 비디오의 캡처, 합성 또는 생성 과정 등을 통한 Point Cloud 비디오를 획득하는 과정을 수행할 수 있다. 획득 과정에 의해 다수의 Point들에 대한 3D 위치(x, y, z)/속성 (color, reflectance, transparency 등) 데이터, 예를 들어, PLY(Polygon File format or the Stanford Triangle format) 파일 등이 생성 될 수 있다. 여러 개의 프레임을 갖는 비디오의 경우 하나 이상의 파일들이 획득될 수 있다. 캡처 과정에서 point cloud 관련 메타데이터(예를 들어 캡처와 관련된 메타데이터 등)가 생성될 수 있다.

Point Cloud 콘텐츠 캡쳐를 위해서 깊이(depth)를 획득 할 수 있는 카메라 장비(적외선 패턴 프로젝터와 적외선 카메라의 조합)와 깊이 정보에 대응되는 색상 정보를 추출 할 수 있는 RGB 카메라들의 조합으로 구성될 수 있다. 또는 레이저 펄스를 쏘고 반사되어 돌아오는 시간을 측정하여 반사체의 위치 좌표를 측정하는 레이더 시스템을 이용하는 라이다(LiDAR)를 통해 깊이 정보를 추출할 수 있다. 깊이 정보로부터 3차원 공간상의 점들로 구성된 지오메트리(geometry)(위치를 알려줌)의 형태를 추출하고, RGB 정보로부터 각 점의 색상/반사를 표현하는 속성(attribute)을 추출할 수 있다. Point Cloud 콘텐츠는 점들에 대한 위치(x, y, z)와 색상(YCbCr 또는 RGB) 또는 반사율(r) 정보로 구성될 수 있다. Point Cloud 콘텐츠는 외부 환경을 캡쳐하는 아웃워드-페이싱(outward-facing) 방식과, 중심 객체를 캡쳐하는 인워드-페이싱(inward-facing) 방식이 있을 수 있다. VR/AR 환경에서 객체(예-캐릭터, 선수, 물건, 배우 등 핵심이 되는 객체)를 360도로 사용자가 자유롭게 볼 수 있는 Point Cloud 콘텐츠로 구성할 경우, 캡쳐 카메라의 구성은 인워드-페이싱 방식을 사용하게 될 수 있다. 자율 주행과 같이 자동차에서 현재 주변 환경을 Point Cloud 콘텐츠로 구성할 경우, 캡쳐 카메라의 구성은 아웃워드-페이싱 방식을 사용하게 될 수 있다. 여러대의 카메라를 통해 Point Cloud 콘텐츠가 캡쳐 될 수 있기 때문에, 카메라들 사이의 글로벌 공간 좌표계(global coordinate system)를 설정하기 위해 콘텐츠를 캡쳐 하기 전에 카메라의 캘리브레이션 과정이 필요할 수도 있다.

실시예들에 따른 포인트 클라우드는 인워드-페이싱 방식에 기반하여, 오브젝트의 밖에서 안으로 방향으로의 캡쳐할 수 있다.

실시예들에 따른 포인트 클라우드는 아웃워드-페이싱 방식에 기반하여, 오브젝트의 안에서 밖으로의 방향으로 캡쳐할 수 있다.

Point Cloud 콘텐츠는 다양한 형태의 3D 공간상에 나타내어지는 객체/환경의 비디오 또는 정지 영상일 수 있다.

그 외에 Point Cloud 콘텐츠의 획득 방법은 캡쳐 된 Point Cloud 비디오를 기반으로 임의의 Point Cloud 비디오가 합성 될 수 있다. 또는 컴퓨터로 생성된 가상의 공간에 대한 Point Cloud 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

캡쳐된 Point Cloud 비디오는 콘텐츠의 질을 향상시키기 위한 후처리가 필요할 수 있다. 영상 캡쳐 과정에서 카메라 장비가 제공하는 범위에서 최대/최소 깊이 값을 조정할 수 있지만 그 이후에도 원하지 않는 영역의 points 데이터들이 포함될 수 있어서 원하지 않는 영역(예, 배경)을 제거 한다거나, 또는 연결된 공간을 인식하고 구멍(spatial hole)을 메우는 후처리를 수행할 수 있다. 또한 공간 좌표계를 공유하는 카메라들로부터 추출된 Point Cloud는 캘리브레이션 과정을 통해 획득된 각 카메라의 위치 좌표를 기준으로 각 point들에 대한 글로벌 좌표계로의 변환 과정을 통해 하나의 콘텐츠로 통합될 수 있다. 이를 통해 하나의 넓은 범위의 Point Cloud 콘텐츠를 생성할 수도 있고, 또는 point들의 밀도가 높은 Point Cloud 콘텐츠를 획득할 수도 있다.

Point Cloud 비디오 인코더는 입력 Point Cloud 비디오를 하나 이상의 비디오 스트림으로 인코딩할 수 있다. 하나의 비디오는 다수의 프레임을 포함할 수 있으며, 하나의 프레임은 정지 영상/픽처에 대응될 수 있다. 본 문서에서, Point Cloud 비디오라 함은 Point Cloud 영상/프레임/픽처를 포함할 수 있으며, Point Cloud 비디오는 Point Cloud 영상/프레임/픽처와 혼용되어 사용될 수 있다. Point Cloud 비디오 인코더는 Video-based Point Cloud Compression (V-PCC) 절차를 수행할 수 있다. Point Cloud 비디오 인코더는 압축 및 코딩 효율을 위하여 예측, 변환, 양자화, 엔트로피 코딩 등의 일련의 절차를 수행할 수 있다. 인코딩된 데이터(인코딩된 비디오/영상 정보)는 비트스트림(bitstream) 형태로 출력될 수 있다. V-PCC 절차에 기반하는 경우 Point Cloud 비디오 인코더는 Point Cloud 비디오를 후술하는 바와 같이 지오메트리 비디오, 어트리뷰트(attribute) 비디오, 어큐판시(occupancy) 맵 비디오, 그리고 부가 정보(auxiliary information)으로 나누어 인코딩할 수 있다. 상기 지오메트리 비디오는 지오메트리 이미지를 포함할 수 있고, 상기 어트리뷰트(attribute) 비디오는 어트리뷰트 이미지를 포함할 수 있고, 상기 어큐판시(occupancy) 맵 비디오는 어큐판시 맵 이미지를 포함할 수 있다. 상기 부가 정보는 부가 패치 정보(auxiliary patch information)를 포함할 수 있다. 상기 어트리뷰트 비디오/이미지는 텍스쳐 비디오/이미지를 포함할 수 있다.

인캡슐레이션 처리부(file/segment encapsulation module)는 인코딩된 Point cloud 비디오 데이터 및/또는 Point cloud 비디오 관련 메타데이터를 파일 등의 형태로 인캡슐레이션할 수 있다. 여기서 Point cloud 비디오 관련 메타데이터는 메타데이터 처리부 등으로부터 전달받은 것일 수 있다. 메타데이터 처리부는 상기 point cloud 비디오 인코더에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 인캡슐레이션 처리부는 해당 데이터들을 ISOBMFF 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 인캡슐레이션 처리부는 실시예에 따라 Point cloud 비디오 관련 메타데이터를 파일 포맷 상에 포함시킬 수 있다. Point cloud 비디오 메타데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나 파일 내에서 별도의 트랙내의 데이터로 포함될 수 있다. 실시예에 따라, 인캡슐레이션 처리부는 Point cloud 비디오 관련 메타데이터 자체를 파일로 인캡슐레이션할 수 있다. 전송 처리부는 파일 포맷에 따라 인캡슐레이션된 Point cloud 비디오 데이터에 전송을 위한 처리를 가할 수 있다. 전송 처리부는 전송부에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 전송 처리부는 임의의 전송 프로토콜에 따라 Point cloud 비디오비디오 데이터를 처리할 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리를 포함할 수 있다. 실시예에 따라 전송 처리부는 Point cloud 비디오 데이터 뿐 아니라, 메타데이터 처리부로부터 Point cloud 비디오관련 메타데이터를 전달받아, 이 것에 전송을 위한 처리를 가할 수도 있다.

전송부는 비트스트림 형태로 출력된 인코딩된 비디오/영상 정보 또는 데이터를 파일 또는 스트리밍 형태로 디지털 저장매체 또는 네트워크를 통하여 수신 디바이스의 수신부로 전달할 수 있다. 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 전송부는 미리 정해진 파일 포멧을 통하여 미디어 파일을 생성하기 위한 엘리먼트를 포함할 수 있고, 방송/통신 네트워크를 통한 전송을 위한 엘레멘트를 포함할 수 있다. 수신부는 상기 비트스트림을 추출하여 디코딩 장치로 전달할 수 있다.

수신부는 실시예들에 따른 point cloud 비디오 전송 장치가 전송한 point cloud 비디오 데이터를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 point cloud 비디오 데이터를 수신할 수도 있고, 브로드밴드를 통하여 point cloud 비디오 데이터를 수신할 수도 있다. 혹은 디지털 저장 매체를 통하여 point cloud 비디오 데이터를 수신할 수도 있다.

수신 처리부는 수신된 point cloud 비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 수신부에 포함될 수 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 point cloud 비디오 데이터는 디캡슐레이션 처리부로 전달하고, 획득한 point cloud 비디오 관련 메타데이터는 메타데이터 파서로 전달할 수 있다. 수신 처리부가 획득하는 point cloud 비디오 관련 메타데이터는 시그널링 테이블의 형태일 수 있다.

디캡슐레이션 처리부(file/segment decapsulation module)는 수신 처리부로부터 전달받은 파일 형태의 point cloud 비디오 데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일들을 디캡슐레이션하여, point cloud 비디오 비트스트림 내지 point cloud 비디오 관련 메타데이터(메타데이터 비트스트림)를 획득할 수 있다. 획득된 point cloud 비디오 비트스트림은 상기 point cloud 비디오 디코더로, 획득된 point cloud 비디오 관련 메타데이터(메타데이터 비트스트림)는 메타데이터 처리부로 전달할 수 있다. 상기 point cloud 비디오 비트스트림은 상기 메타데이터(메타데이터 비트스트림)를 포함할 수도 있다. 상기 메타데이터 처리부는 상기 point cloud 비디오 디코더에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 디캡슐레이션 처리부가 획득하는 point cloud 비디오 관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 처리부로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다. 상기 point cloud 비디오 관련 메타데이터는 상기 point cloud 비디오 디코더에 전달되어 point cloud 비디오 디코딩 절차에 사용될 수도 있고, 또는 렌더러에 전달되어 point cloud 비디오 렌더링 절차에 사용될 수도 있다.

Point Cloud 비디오 디코더는 상기 비트스트림을 입력받아 상기 Point Cloud 비디오 인코더의 동작에 대응하는 동작을 수행하여 비디오/영상을 디코딩할 수 있다. 이 경우 Point Cloud 비디오 디코더는 Point Cloud 비디오를 후술하는 바와 같이 지오메트리 비디오, 어트리뷰트(attribute) 비디오, 어큐판시(occupancy) 맵 비디오, 그리고 부가 정보(auxilIary information )으로 나누어 디코딩할 수 있다. 상기 지오메트리 비디오는 지오메트리 이미지를 포함할 수 있고, 상기 어트리뷰트(attribute) 비디오는 어트리뷰트 이미지를 포함할 수 있고, 상기 어큐판시(occupancy) 맵 비디오는 어큐판시 맵 이미지를 포함할 수 있다. 상기 부가 정보는 부가 패치 정보(auxiliary patch information)를 포함할 수 있다. 상기 어트리뷰트 비디오/이미지는 텍스쳐 비디오/이미지를 포함할 수 있다.

디코딩된 지오메트리 이미지와 오큐판시 맵 및 부가 패치 정보를 이용하여 3차원 지오메트리가 복원되며 이후 스무딩 과정을 거칠 수 있다. 스무딩된 3차원 지오메트리에 텍스처 이미지를 이용하여 컬러값을 부여함으로써 컬러 포인트 클라우드 영상/픽처가 복원될 수 있다. 렌더러는 복원된 지오메트리, 컬러 포인트 클라우드 영상/픽처를렌더링할 수 있다. 렌더링된 비디오/영상은 디스플레이부를 통하여 디스플레이될 수 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링 된 결과의 전부 또는 일부 영역을 볼 수 있다.

피드백 과정은 렌더링/디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하거나 수신측의 디코더에 전달하는 과정을 포함할 수 있다. 피드백 과정을 통해 Point Cloud 비디오 소비에 있어 인터랙티비티(interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 전달될 수 있다. 실시예에 따라, 사용자는 VR/AR/MR/자율주행 환경 상에 구현된 것들과 상호작용 할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 Point Cloud 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 Point Cloud 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 Point Cloud 비디오를 소비하는지, Point Cloud 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR/AR/MR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐 아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 Point Cloud 비디오만 우선적으로 디코딩 및 렌더링 될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 Point Cloud 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 Point Cloud 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 FOV(Field Of View) 에 의해 결정될 수 있다.

이 문서는 상술한 바와 같이 Point Cloud 비디오 압축에 관한 것이다. 예를 들어 이 문서에서 개시된 방법/실시예는 MPEG (Moving Picture Experts Group)의 PCC (point cloud compression or point cloud coding) 표준 또는 차세대 비디오/이미지 코딩 표준에 적용될 수 있다.

이 문서에서 픽처(picture)/프레임(frame)은 일반적으로 특정 시간대의 하나의 영상을 나타내는 단위를 의미할 수 있다.

픽셀(pixel) 또는 펠(pel)은 하나의 픽처(또는 영상)을 구성하는 최소의 단위를 의미할 수 있다. 또한, 픽셀에 대응하는 용어로서 '샘플(sample)'이 사용될 수 있다. 샘플은 일반적으로 픽셀 또는 픽셀의 값을 나타낼 수 있으며, 루마(luma) 성분의 픽셀/픽셀값만을 나타낼 수도 있고, 크로마(chroma) 성분의 픽셀/픽셀 값만을 나타낼 수도 있고, 또는 뎁스(depth) 성분의 픽셀/픽셀값만을 나타낼 수도 있다.

유닛(unit)은 영상 처리의 기본 단위를 나타낼 수 있다. 유닛은 픽처의 특정 영역 및 해당 영역에 관련된 정보 중 적어도 하나를 포함할 수 있다. 유닛은 경우에 따라서 블록(block) 또는 영역(area) 등의 용어와 혼용하여 사용될 수 있다. 일반적인 경우, MxN 블록은 M개의 열과 N개의 행으로 이루어진 샘플들(또는 샘플 어레이) 또는 변환 계수(transform coefficient)들의 집합(또는 어레이)을 포함할 수 있다.

실시예들에 따른 인코딩 프로세스와 관련하여,

실시예들에 따른 Video-based Point Cloud Compression (V-PCC)는 HEVC, VVC 등의 2D video codec을 기반으로 3차원 point cloud 데이터를 압축하는 방법을 제공할 수 있다. V-PCC 압축 과정에서 다음과 같은 데이터 및 정보들이 생성될 수 있다.

실시예들에 따른 occupancy map: point cloud를 이루는 점들을 *patch로 나누어 2D 평면에 맵핑할 때 2D 평면의 해당 위치에 데이터가 존재하는 여부를 0 또는 1의 값으로 알려주는 2진 맵 (binary map)

실시예들에 따른 *patch: point cloud를 구성하는 점들의 집합으로, 같은 patch에 속하는 점들은 3차원 공간상에서 서로 인접해 있으며 2D 이미지로의 맵핑 과정에서 6면의 bounding box 평면 중 같은 방향으로 맵핑될 수 있다.

실시예들에 따른 geometry image: point cloud를 이루는 각 점들의 위치 정보 (geometry)를 patch 단위로 표현하는 depth map 형태의 이미지. 1 채널의 픽셀 값으로 구성될 수 있다.

실시예들에 따른 texture image: point cloud를 이루는 각 점들의 색상 정보를 patch 단위로 표현하는 image. 복수 채널의 픽셀 값 (e.g. 3채널 R, G, B)으로 구성될 수 있다.

실시예들에 따른 auxiliary patch info: 개별 patch들로부터 point cloud를 재구성하기 위해 필요한 메타데이터로, patch의 2D/3D 공간에서의 위치, 크기 등에 대한 정보를 포할 수 있다.

도25는 실시예들에 따른 V-PCC 인코딩 프로세스를 나타낸다.

도면은 어큐판시 맵(occupancy map), 지오메트리 이미지(geometry image), 텍스쳐 이미지(texture image), 오실러리 패치 인포메이션(auxiliary patch information)을 생성하고 압축하기 위한 V-PCC encoding process를 도시하여 보여주고 있다. 각 process의 동작은 다음과 같다.

실시예들에 따른 오실러리 패치 인포메이션은 패치들의 분포에 관한 정보를 포함한다.

실시예들에 따른 Patch generation

Patch generation 과정은 point cloud를 2D 이미지에 맵핑 (mapping)하기 위하여, 맵핑을 수행하는 단위인 patch로 point cloud를 분할하는 과정을 의미한다. Patch generation 과정은 다음과 같이 normal 값 계산, segmentation, patch 분할의 세 단계로 구분될 수 있다.

실시예들에 따른 패치는 3차원 데이터를 2차원 데이터(예를 들어, 이미지)로 맵핑하는 데이터를 나타낸다.

실시예들에 따른 Normal 계산

Point cloud를 이루는 각 점들은 고유의 방향을 가지고 있는데 이것은 normal이라는 3차원 vector로 표현된다. K-D tree 등을 이용하여 구해지는 각 점들의 인접점들 (neighbors)을 이용하여, 다음의 Figure 1-3에서와 같은 point cloud의 surface를 이루는 각 점들의 *tangent plane 및 normal vector를 구할 수 있다. 인접점들을 찾는 과정에서의 search range는 사용자에 의해 정의될 수 있다.

실시예들에 따른 *tangent plane: surface의 한 점을 지나면서 surface 위의 곡선에 대한 접선을 완전이 포함하고 있는 평면이다.

실시예들에 따른 노멀 벡터는 탄젠트 플레인에 대한 노멀 벡터이다.

이어서, 실시예들에 따른 V-PCC 인코딩 프로세스를 설명하면 다음과 같다.

세그멘테이션(Segmentation):

Segmentation은 initial segmentation과 refine segmentation의 두 과정으로 이루어 진다.

Point cloud를 이루는 각 점들은 후술할 도27에서와 같이 point cloud를 감싸는 6개의 bounding box의 면들 중 하나의 면에 projection되는데, initial segmentation은 각 점들이 projection될 bounding box의 평면들 중 하나를 결정하는 과정이다.

도27은 실시예들에 따른 Point cloud의 bounding box를 나타낸다.

실시예들에 따른 포인트 클라우드의 바운딩 박스는, 예를 들어 정육면체를 이루는 형태일 수 있다.

실시예들에 따른6개의 각 평면들과 대응되는 normal값인

는 다음과 같이 정의된다.

(1.0, 0.0, 0.0),

(0.0, 1.0, 0.0),

(0.0, 0.0, 1.0),

(-1.0, 0.0, 0.0),

(0.0, -1.0, 0.0),

(0.0, 0.0, -1.0).

다음의 수식과 같이 앞서 normal 값 계산과정에서 얻은 각 점들의 normal 값(

)과

의 외적 (dot product)이 최대인 면을 해당 면의 projection 평면으로 결정한다. 즉, point의 normal과 가장 유사한 방향의 normal을 갖는 평면이 해당 point 의 projection 평면으로 결정된다.

결정된 평면은 0~5 중 하나의 index 형태의 값 (cluster index) 으로 식별될 수 있다.

Refine segmentation은 앞서 initial segmentation 과정에서 결정된 point cloud를 이루는 각 점의projection 평면을 인접 점들의 projection 평면을 고려하여 개선하는 과정이다. 이 과정에서는 앞서 initial segmentation 과정에서 projection 평면 결정을 위해 고려된 각 포인트의 normal과 bounding box의 각 평면의 normal 값과의 유사 정도를 이루는 score normal과 함께, 현재 점의 projection 평면과 인접 점들의 projection 평면과의 일치 정도를 나타내는 score smooth가 동시에 고려될 수 있다.

Score smooth는 score normal에 대하여 가중치를 부여하여 고려될 수 있으며, 이 때 가중치 값은 사용자에 의해 정의될 수 있다. Refine segmentation은 반복적으로 수행될 수 있으며, 반복 횟수 또한 사용자에 의해 정의될 수 있다.

Patch 분할 (segment patches):

Patch 분할은 앞서 initial/refine segmentation 과정에서 얻은 point cloud를 이루는 각 점들의 projection 평면 정보를 바탕으로, 전체 point cloud를 인접한 점들의 집합인 patch로 나누는 과정이다. Patch 분할은 다음과 같은 단계들로 구성될 수 있다.

1) K-D tree 등을 이용하여 point cloud를 이루는 각 점들의 인접 점들을 산출한다. 최대 인접점으 개수는 사용자에 의해 정의될 수 있다.

2) 인접 점들이 현재의 점과 동일한 평면에 projection 될 경우 (동일한 cluster index 값을 가질 경우) 현재의 점과 해당 인접 점들을 하나의 patch로 추출한다.

3) 추출된 patch의 geometry 값들을 산출한다. 자세한 과정은 1.3절에서 설명한다.

4) 추출되지 않은 점들이 없어질 때까지 ②내지④과정을 반복한다.

Patch 분할 과정을 통해 각 patch의 크기 및 patch별 occupancy map, geometry image, texture image 등이 결정된다.

Patch packing & Occupancy map generation:

본 과정은 앞서 분할된 patch들을 하나의 2D 이미지에 맵핑하기 위해 개별 patch들의 2D 이미지 내에서의 위치를 결정하는 과정이다. Occupancy map은 상기 2D 이미지의 하나로, 해당 위치에 데이터가 존재하는지 여부를 0 또는 1의 값으로 알려주는 binary map이다. Occupancy map은 block으로 이루어 지며 block의 크기에 따라 그 해상도가 결정될 수 있는데, 일례로 block 크기가 1*1일 경우 픽셀 (pixel) 단위의 해상도를 갖는다. Block의 크기 (occupancy packing block size)는 사용자에 의해 결정될 수 있다.

Occupancy map 내에서 개별 patch의 위치를 결정하는 과정은 다음과 같이 구성될 수 있다.

1) 전체 occupancy map의 값들을 모두 0으로 설정한다.

2) occupancy map 평면에 존재하는 수평 좌표가 [0, *occupancySizeU - *patch.sizeU0), 수직 좌표가 [0, *occupancySizeV - *patch.sizeV0) 범위에 있는 점 (u, v)에 patch를 위치시킨다.

3) patch 평면에 존재하는 수평 좌표가 [0, patch.sizeU0), 수직 좌표가 [0, patch.sizeV0) 범위에 있는 점 (x, y)를 현재 점으로 설정한다.

4) 점 (x, y)에 대하여, patch occupancy map의 (x, y) 좌표 값이 1이고 (patch 내 해당 지점에 데이터가 존재하고), 전체 occupancy map의 (u+x, v+y) 좌표 값이 1 (이전 patch에 의해 occupancy map이 채워진 경우) raster order 순으로 (x, y) 위치를 변경하여 3번 및 4번 과정을 반복한다. 그렇지 않을 경우, 6번의 과정을 수행한다.

5) raster order 순으로 (u, v) 위치를 변경하여 ③내지⑤의 과정을 반복한다.

6) (u, v)를 해당 patch의 위치로 결정하고, patch의 occupancy map 데이터를 전체 occupancy map의 해당 부분에 할당(copy)한다.

7) 다음 patch에 대하여 2번 내지 7번의 과정을 반복한다.

실시예들에 따른 *occupancySizeU: occupancy map의 width를 나타내며, 단위는 occupancy packing block size이다.

실시예들에 따른 *occupancySizeV: occupancy map의 height를 나타내며, 단위는 occupancy packing block size.

실시예들에 따른 *patch.sizeU0: occupancy map의 width를 나타내며, 단위는 occupancy packing block size.

실시예들에 따른 *patch.sizeV0: occupancy map의 height를 나타내며, 단위는 occupancy packing block size.

실시예들에 따른Geometry image generation:

본 과정에서는 개별 patch의 geometry image를 구성하는 depth 값들을 결정하고, 상술한 과정에서 결정된 patch의 위치를 바탕으로 전체 geometry image를 생성한다. 개별 patch의 geometry image를 구성하는 depth 값들을 결정하는 과정은 다음과 같이 구성될 수 있다.

① 실시예들에 따른 개별 patch의 위치, 크기 관련 파라미터들을 산출한다. 파라미터들은 다음과 같은 정보들을 포함할 수 있다.

- 실시예들에 따른normal 축을 나타내는 index: normal은 앞서 patch generation 과정에서 구해지며, tangent 축은 normal과 직각인 축들 중 patch image의 수평(u)축과 일치하는 축이며, bitangent 축은 normal과 직각인 축들 중 patch image의 수직(v)축과 일치하는 축으로, 세 가지 축은 도28에서와 같이 표현될 수 있다.

실시예들에 따른 서페이스는 복수의 리전(영역, 예를 들어, C1,C2, D1, D2, E1, ..etc.)을 포함할 수 있다.

실시예들에 따른 서페이스의 tangent 축은 normal과 직각인 축들 중 patch image의 수평(u)축과 일치하는 축이다.

실시예들에 따른 서페이스의 bitangent 축은 normal과 직각인 축들 중 patch image의 수직(v)축과 일치하는 축이다.

실시예들에 따른 서페이스의 normal 축은 patch generation에서 생성된 노멀을 나타낸다.

- 실시예들에 따른patch의 3D 공간 좌표: patch를 감싸는 최소 크기의 bounding box를 통해 산출될 수 있다. patch의 tangent 방향 최소값 (patch 3d shift tangent axis), patch의 bitangent 방향 최소값 (patch 3d shift bitangent axis), patch의 normal 방향 최소값 (patch 3d shift normal axis) 등이 포함될 수 있다.

- 실시예들에 따른patch의 2D 크기: patch가 2D 이미지로 패킹될 때의 수평, 수직 방향 크기를 나타낸다. 수평 방향 크기 (patch 2d size u)는 bounding box의 tangent 방향 최대값과 최소값의 차이로, 수직 방향 크기 (patch 2d size v)는 bounding box의 bitangent 방향 최대값과 최소값의 차이로 구해질 수 있다.

실시예들에 따른 2D 포인트 클라우드의 패치의 프로젝션 모드는 최소 모드 및 최대 모드를 포함한다.

실시예들에 따른 d0는 제1레이어의 이미지이고, 실시예들에 따른 d1은 제2레이어의 이미지이다.

2D 포인트 클라우드의 패치의 프로젝션은 최소 값을 기준으로 프로젝션하고, 미싱 포인트들을 레이어 d0, d1에 기초하여 결정한다.

실시예들에 따른 Geometry image generation은 패치에 대한 커넥티드 컴포넌트를 재구성하고 이때 미싱 포인트들이 존재한다.

실시예들에 따른 delta는 d0 및 d1 간의 차이일 수 있다. 실시예들에 따른 Geometry image generation은 delta 값에 기반하여 미싱 포인트들을 결정할 수 있다.

② Patch의 projection mode를 결정한다. Projection mode는 min mode와 max mode 중 하나일 수 있다. Patch의 geometry 정보는 depth 값으로 표현되는데, patch의 normal 방향으로 patch를 이루는 각 점들을 projection 할 때 depth 값의 최대 값으로 구성되는 이미지와 최소값으로 구성되는 이미지 두 계층(layer)의 이미지들이 생성될 수 있다.

실시예들에 따른 두 계층의 이미지 d0와 d1을 생성함에 있어, min mode일 경우 도30과 같이 최소 depth가 d0에 구성되고, 최소 depth로부터 surface thickness 이내에 존재하는 최대 depth가 d1으로 구성될 수 있다. Max mode일 경우 도30과 같이 최대 depth가 d0에 구성되고, 최대 depth로부터 surface thickness 이내에 존재하는 최소 depth가 d1으로 구성될 수 있다.

실시예들에 따른Projection mode는 사용자 정의에 의해 모든 point cloud에 동일한 방법이 적용되거나, frame 또는 patch 별로 다르게 적용될 수 있다. Frame 또는 patch 별로 다른 projection mode가 적용될 경우, 압축 효율을 높이거나 소실 점 (missed point)을 최소화 할 수 있는 projection mode가 적응적으로 선택될 수 있다.

실시예들에 따른 프로젝션 모드에 따라서 커넥티드 컴포넌트의 구성이 달라진다.

③ 개별 점들의 depth 값을 산출한다. Min mode일 경우 각 점의 normal 축 최소값에 patch의 normal 방향 최소값 (patch 3d shift normal axis)에서 ①의 과정에서 산출된 patch의 normal 방향 최소값 (patch 3d shift normal axis)을 뺀 값인 depth0로 d0 이미지를 구성한다. 동일 위치에 depth0와 surface thickness 이내의 범위에 또 다른 depth 값이 존재할 경우, 이 값을 depth1으로 설정한다. 존재하지 않을 경우 depth0의 값을 depth1에도 할당한다. Depth1 값으로 d1 이미지를 구성한다.

Max mode일 경우 각 점의 normal 축 최대값에 patch의 normal 방향 최소값 (patch 3d shift normal axis)에서 ①의 과정에서 산출된 patch의 normal 방향 최소값 (patch 3d shift normal axis)을 뺀 값인 depth0로 d0 이미지를 구성한다. 동일 위치에 depth0와 surface thickness 이내의 범위에 또 다른 depth 값이 존재할 경우, 이 값을 depth1으로 설정한다. 존재하지 않을 경우 depth0의 값을 depth1에도 할당한다. Depth1 값으로 d1 이미지를 구성한다.

위와 같은 과정을 통해 생성된 개별 patch의 geometry image를 앞서 1.2 patch packing 과정에서 결정된 patch의 위치 정보를 이용하여 전체 geometry image에 배치시킴으로써 전체 geometry image를 생성할 수 있다.

생성된 전체 geometry image의 d1 계층은 여러 가지 방법으로 부호화 될 수 있다. 첫 번째는 앞서 생성한 d1 이미지의 depth값들을 그대로 부호화 (absolute d1 method)하는 방법이다. 두 번째는 앞서 생성한 d1 이미지의 depth값과 d0 이미지의 depth값이 차이 값을 부호화 (differential method)하는 방법이다.

도31은 실시예들에 따른 EDD code의 예시를 나타낸다.

상술한 실시예들과 같은 d0, d1 두 계층의 depth 값을 이용한 부호화 방법은 두 depth 사이에 또 다른 점들이 존재할 경우 해당 점의 geometry 정보를 부호화 과정에서 잃어버리기 때문에, 무손실 압축 (lossless coding)을 위해 Enhanced-Delta-Depth (EDD) code를 이용할 수도 있다. EDD code는 Figure 1-9에 도시된 바와 같이, d1을 포함하여 surface thickness 범위 내의 모든 점들의 위치를 이진으로 부호화 하는 방법이다. 일례로 Figure 1-9의 좌측에서 두 번째 열에 포함되는 점들의 경우, D0 위쪽으로 첫 번째, 네 번째 위치에 점들이 존재하고, 두 번째와 세 번째 위치는 비어있기 때문에 0b1001 (=9)의 EDD code로 표현될 수 있다. D0와 함께 EDD code를 부호화하여 보내 주면 수신단에서는 모든 점들의 geometry 정보를 손실 없이 복원할 수 있게 된다.

실시예들에 따른 Smoothing:

Smoothing은 압축 과정에서 발생하는 화질의 열화로 인해 patch 경계면에서 발생할 수 있는 불연속성을 제거하기 위한 작업이며 다음과 같은 과정으로 수행될 수 있다.

① geometry image로부터 point cloud를 재생성(reconstruction)한다. 본 과정은 1.3에서 설명한 geometry image 생성의 역과정이라고 할 수 있다.

② K-D tree 등을 이용하여 재생성된 point cloud를 구성하는 각 점들의 인접점들을 산출한다.

③ 각 점들에 대하여, 해당 점이 patch 경계면에 위치하는지를 판단한다. 일례로 현재 점과 다른 projection 평면 (cluster index)을 갖는 인접점이 존재할 경우, 해당 점은 patch 경계면에 위치한다고 판단할 수 있다.

④ patch 경계면에 존재할 경우, 해당 점을 인접점들의 무게중심 (인접점들의 평균 x, y, z 좌표에 위치)으로 이동시킨다. 즉, geometry 값을 변경시킨다. 그렇지 않을 경위 이전 geometry 값을 유지한다.

실시예들에 따른 Texture image generation:

실시예들에 따른 Texture image 생성 과정은 상술한 geometry image 생성 과정과 유사하게, 개별 patch의 texture image 생성하고, 이들은 결정된 위치에 배치하여 전체 texture image를 생성하는 과정으로 구성된다. 다만 개별 patch의 texture image를 생성하는 과정에 있어서 geometry 생성을 위한 depth 값을 대신하여 해당 위치에 대응되는 point cloud를 구성하는 점의 color 값 (e.g. R, G, B)을 갖는 image가 생성된다.

실시예들에 따른 Point cloud를 구성하는 각 점의 color 값을 구하는 과정에 있어서 앞서 smoothing 과정을 거친 geometry가 사용될 수 있다. Smoothing된 point cloud는 원본 point cloud에서 일부 점들의 위치가 이동된 상태일 수 있으므로, 변경된 위치에 적합한 color를 찾아내는 recoloring과정이 필요할 수 있다. Recoloring은 인접점들의 color 값들을 이용하여 수행될 수 있다. 실시예들에 따라 도32에서와 같이 새로운 color값은 최인접점의 color값과 인접점들의 color값들을 고려하여 산출될 수 있다.

실시예들에 따른 Texture image 또한 d0/d1의 두 계층으로 생성되는 geometry image와 같이 t0/t1의 두 개의 계층 으로 생성될 수 있다.

실시예들에 따른 Auxiliary patch info compression:

실시예들에 따른 과정에서는 앞서 설명한 patch generation, patch packing, geometry generation 과정 등에서 생성된 부가 patch 정보들을 압축한다. 부가 patch 정보에는 다음과 같은 파라미터들이 포함될 수 있다.

- projection 평면 (normal)을 식별하는 index (cluster index)

- patch의 3D 공간 위치: patch의 tangent 방향 최소값 (patch 3d shift tangent axis), patch의 bitangent 방향 최소값 (patch 3d shift bitangent axis), patch의 normal 방향 최소값 (patch 3d shift normal axis)

- patch의 2D 공간 위치, 크기: 수평 방향 크기 (patch 2d size u), 수직 방향 크기 (patch 2d size v), 수평 방향 최소값 (patch 2d shift u), 수직 방향 최소값 (patch 2d shift u)

- 각 block과 patch의 맵핑 정보: candidate index (위의 patch의 2D 공간 위치, 크기 정보를 기반으로 patch를 순서대로 위치시켰을 때, 한 block에 중복으로 복수 patch가 맵핑될 수 있음. 이때 맵핑되는 patch들이 candidate list를 구성하며, 이 list 중 몇 번째 patch의 data가 해당 block에 존재하는지를 나타내는 index), local patch index (frame에 존재하는 전체 patch들 중 하나를 가리키는 index). 도면은 candidate list와 local patch index를 이용한 block과 patch match 과정을 나타내는 pseudo code이다.

실시예들에 따른 * candidate list의 최대 개수는 사용자에 의해 정의될 수 있다.

도34는 실시예들에 따른 push-pull background filling을 나타낸다.

실시예들에 따른 Image padding and group dilation:

Image padding은 압축 효율 향상을 목적으로 patch 영역 이외의 공간을 의미 없는 데이터로 채우는 과정이다. Image padding을 위해 patch 내부의 경계면 쪽에 해당하는 열 또는 행의 픽셀 값들이 복사되어 빈 공간을 채우는 방법이 사용될 수 있다. 또는 도면에서와 같이, padding 되지 않은 이미지를 단계적으로 해상도를 줄이고, 다시 해상도를 늘리는 과정에서 낮은 해상도의 이미지로부터 온 픽셀 값들로 빈 공간을 채우는 push-pull background filling 방법이 사용될 수도 있다.

실시예들에 따른 Group dilation은 d0/d1, t0/t1 두 계층으로 이루어진 geometry, texture image의 빈 공간을 채우는 방법으로, 앞서 image padding을 통해 산출된 두 계층 빈 공간의 값들을, 두 계층의 동일 위치에 대한 값의 평균값으로 채우는 과정이다.

실시예들에 따른Occupancy map compression:

앞서 설명한 실시예들의 과정에서 생성된 occupancy map을 압축하는 과정으로 손실 (lossy) 압축을 위한 video compression과 무손실 (lossless) 압축을 위한 entropy compression, 두 가지 방법이 존재할 수 있다. video compression은 도37에서 설명한다.

실시예들에 따른 Entropy compression 과정은 다음과 같은 과정으로 수행될 수 있다.

① occupancy map을 구성하는 각 block에 대하여, block이 모두 채워진 경우 1을 부호화 하고 다음 block에 대해 동일 과정을 반복한다. 그렇지 않은 경우 0을 부호화하고, ②내지⑤의 과정을 수행한다. .

② block의 채워진 pixel들에 대해 run-length coding을 수행하기 위한 best traversal order를 결정한다. Figure 1-12는 4*4 크기의 block에 대해 가능한 4가지 traversal order를 일례로 보여주고 있다.

가능한 traversal order들 중 최소의 run 개수를 갖는 best traversal order를 선택하여 그 index를 부호화 한다. 실시예들에 따른 도면은 앞선 도면의 세 번째 traversal order를 선택할 경우이며, 이 경우 run의 개수가 2로 최소화될 수 있으므로 이를 best traversal order로 선택할 수 있다.

③ run의 개수를 부호화 한다. 도면의 예에서는 2개의 run이 존재하므로 2가 부호화 된다.

④ 첫 번째 run의 occupancy를 부호화 한다. 도면의 예에서는 첫 번째 run이 채워지지 않은 픽셀들에 해당하므로 0이 부호화된다.

⑤ 개별 run에 대한 (run의 개수만큼의) length를 부호화 한다. 도면의 예에서는 첫 번째 run과 두 번째 run의 length인 6과 10이 순차적으로 부호화된다.

도37은 실시예들에 따른 2D video/image encoder 을 나타낸다.

실시예들에 따른 Video compression:

실시예들에 따른 HEVC, VVC 등의 2D video codec 등을 이용하여, 앞서 설명한 과정으로 생성된 geometry image, texture image, occupancy map image 등의 시퀀스를 부호화 하는 과정이다.

실시예들에 따른 도면은 Video compression이 적용되는 실시예로서, 비디오/영상 신호의 인코딩이 수행되는 2D video/image encoder(100)의 개략적인 블록도를 나타낸다. 상기 2D video/image encoder(100)는 상술한 point cloud video encoder에 포함될 수 있고, 또는 내/외부 컴포넌트로 구성될 수도 있다. 여기서 입력 영상은 상술한 geometry image, texture image (attribute(s) image), occupancy map image 등을 포함할 수 있다. point cloud video encoder의 출력 bitstream (즉, point cloud video/image bitstream)은 각 입력 영상(geometry image, texture image (attribute(s) image), occupancy map image 등)에 대한 출력 비트스트림들을 포함할 수 있다.

실시예들에 따른 도면들을 참조하면, 인코더(100)는 영상 분할부(110), 감산부(115), 변환부(120), 양자화부(130), 역양자화부(140), 역변환부(150), 가산부(155), 필터링부(160), 메모리(170), 인터 예측부(180), 인트라 예측부(185) 및 엔트로피 인코딩부(190)를 포함하여 구성될 수 있다. 인터 예측부(180) 및 인트라 예측부(185)를 합쳐서 예측부라고 불릴 수 있다. 즉, 예측부는 인터 예측부(180) 및 인트라 예측부(185)를 포함할 수 있다. 변환부(120), 양자화부(130), 역양자화부(140), 역변환부(150)는 레지듀얼(residual) 처리부에 포함될 수 있다. 레지듀얼 처리부는 감산부(115)를 더 포함할 수도 있다. 상술한 영상 분할부(110), 감산부(115), 변환부(120), 양자화부(130), 역양자화부(140), 역변환부(150), 가산부(155), 필터링부(160), 인터 예측부(180), 인트라 예측부(185) 및 엔트로피 인코딩부(190)는 실시예에 따라 하나의 하드웨어 컴포넌트(예를 들어 인코더 또는 프로세서)에 의하여 구성될 수 있다. 또한 메모리(170)는 DPB(decoded picture buffer)를 포함할 수 있고, 디지털 저장 매체에 의하여 구성될 수도 있다.

실시예들에 따른 영상 분할부(110)는 인코딩 장치(100)에 입력된 입력 영상(또는, 픽쳐, 프레임)를 하나 이상의 처리 유닛(processing unit)으로 분할할 수 있다. 일 예로, 상기 처리 유닛은 코딩 유닛(coding unit, CU)이라고 불릴 수 있다. 이 경우 코딩 유닛은 코딩 트리 유닛(coding tree unit, CTU) 또는 최대 코딩 유닛(largest coding unit, LCU)으로부터 QTBT (Quad-tree binary-tree) 구조에 따라 재귀적으로(recursively) 분할될 수 있다. 예를 들어, 하나의 코딩 유닛은 쿼드 트리 구조 및/또는 바이너리 트리 구조를 기반으로 하위(deeper) 뎁스의 복수의 코딩 유닛들로 분할될 수 있다. 이 경우 예를 들어 쿼드 트리 구조가 먼저 적용되고 바이너리 트리 구조가 나중에 적용될 수 있다. 또는 바이너리 트리 구조가 먼저 적용될 수도 있다. 더 이상 분할되지 않는 최종 코딩 유닛을 기반으로 실시예들에 따른 코딩 절차가 수행될 수 있다. 이 경우 영상 특성에 따른 코딩 효율 등을 기반으로, 최대 코딩 유닛이 바로 최종 코딩 유닛으로 사용될 수 있고, 또는 필요에 따라 코딩 유닛은 재귀적으로(recursively) 보다 하위 뎁스의 코딩 유닛들로 분할되어 최적의 사이즈의 코딩 유닛이 최종 코딩 유닛으로 사용될 수 있다. 여기서 코딩 절차라 함은 후술하는 예측, 변환, 및 복원 등의 절차를 포함할 수 있다. 다른 예로, 상기 처리 유닛은 예측 유닛(PU: Prediction Unit) 또는 변환 유닛(TU: Transform Unit)을 더 포함할 수 있다. 이 경우 상기 예측 유닛 및 상기 변환 유닛은 각각 상술한 최종 코딩 유닛으로부터 분할 또는 파티셔닝될 수 있다. 상기 예측 유닛은 샘플 예측의 단위일 수 있고, 상기 변환 유닛은 변환 계수를 유도하는 단위 및/또는 변환 계수로부터 레지듀얼 신호(residual signal)를 유도하는 단위일 수 있다.

실시예들에 따른 유닛은 경우에 따라서 블록(block) 또는 영역(area) 등의 용어와 혼용하여 사용될 수 있다. 일반적인 경우, MxN 블록은 M개의 열과 N개의 행으로 이루어진 샘플들 또는 변환 계수(transform coefficient)들의 집합을 나타낼 수 있다. 샘플은 일반적으로 픽셀 또는 픽셀의 값을 나타낼 수 있으며, 휘도(luma) 성분의 픽셀/픽셀값만을 나타낼 수도 있고, 채도(chroma) 성분의 픽셀/픽셀 값만을 나타낼 수도 있다. 샘플은 하나의 픽처(또는 영상)을 픽셀(pixel) 또는 펠(pel)에 대응하는 용어로서 사용될 수 있다.

실시예들에 따른 인코딩 장치(100)는 입력 영상 신호(원본 블록, 원본 샘플 어레이)에서 인터 예측부(180) 또는 인트라 예측부(185)로부터 출력된 예측 신호(예측된 블록, 예측 샘플 어레이)를 감산하여 레지듀얼 신호(residual signal, 잔여 블록, 잔여 샘플 어레이)를 생성할 수 있고, 생성된 레지듀얼 신호는 변환부(120)로 전송된다. 이 경우 도시된 바와 같이 인코더(100) 내에서 입력 영상 신호(원본 블록, 원본 샘플 어레이)에서 예측 신호(예측 블록, 예측 샘플 어레이)를 감산하는 유닛은 감산부(115)라고 불릴 수 있다. 예측부는 처리 대상 블록(이하, 현재 블록이라 함)에 대한 예측을 수행하고, 상기 현재 블록에 대한 예측 샘플들을 포함하는 예측된 블록(predicted block)을 생성할 수 있다. 예측부는 현재 블록 또는 CU 단위로 인트라 예측이 적용되는지 또는 인터 예측이 적용되는지 결정할 수 있다. 예측부는 각 예측모드에 대한 설명에서 후술하는 바와 같이 예측 모드 정보 등 예측에 관한 다양한 정보를 생성하여 엔트로피 인코딩부(190)로 전달할 수 있다. 예측에 관한 정보는 엔트로피 인코딩부(190)에서 인코딩되어 비트스트림 형태로 출력될 수 있다.

실시예들에 따른 인트라 예측부(185)는 현재 픽처 내의 샘플들을 참조하여 현재 블록을 예측할 수 있다. 상기 참조되는 샘플들은 예측 모드에 따라 상기 현재 블록의 주변(neighbor)에 위치할 수 있고, 또는 떨어져서 위치할 수도 있다. 인트라 예측에서 예측 모드들은 복수의 비방향성 모드와 복수의 방향성 모드를 포함할 수 있다. 비방향성 모드는 예를 들어 DC 모드 및 플래너 모드(Planar 모드)를 포함할 수 있다. 방향성 모드는 예측 방향의 세밀한 정도에 따라 예를 들어 33개의 방향성 예측 모드 또는 65개의 방향성 예측 모드를 포함할 수 있다. 다만, 이는 예시로서 설정에 따라 그 이상 또는 그 이하의 개수의 방향성 예측 모드들이 사용될 수 있다. 인트라 예측부(185)는 주변 블록에 적용된 예측 모드를 이용하여, 현재 블록에 적용되는 예측 모드를 결정할 수도 있다.

실시예들에 따른 인터 예측부(180)는 참조 픽처 상에서 움직임 벡터에 의해 특정되는 참조 블록(참조 샘플 어레이)을 기반으로, 현재 블록에 대한 예측된 블록을 유도할 수 있다. 이때, 인터 예측 모드에서 전송되는 움직임 정보의 양을 줄이기 위해 주변 블록과 현재 블록 간의 움직임 정보의 상관성에 기초하여 움직임 정보를 블록, 서브블록 또는 샘플 단위로 예측할 수 있다. 상기 움직임 정보는 움직임 벡터 및 참조 픽처 인덱스를 포함할 수 있다. 상기 움직임 정보는 인터 예측 방향(L0 예측, L1 예측, Bi 예측 등) 정보를 더 포함할 수 있다. 인터 예측의 경우에, 주변 블록은 현재 픽처 내에 존재하는 공간적 주변 블록(spatial neighboring block)과 참조 픽처에 존재하는 시간적 주변 블록(temporal neighboring block)을 포함할 수 있다. 상기 참조 블록을 포함하는 참조 픽처와 상기 시간적 주변 블록을 포함하는 참조 픽처는 동일할 수도 있고, 다를 수도 있다. 상기 시간적 주변 블록은 동일 위치 참조 블록(collocated reference block), 동일 위치 CU(colCU) 등의 이름으로 불릴 수 있으며, 상기 시간적 주변 블록을 포함하는 참조 픽처는 동일 위치 픽처(collocated picture, colPic)라고 불릴 수도 있다. 예를 들어, 인터 예측부(180)는 주변 블록들을 기반으로 움직임 정보 후보 리스트를 구성하고, 상기 현재 블록의 움직임 벡터 및/또는 참조 픽처 인덱스를 도출하기 위하여 어떤 후보가 사용되는지를 지시하는 정보를 생성할 수 있다. 다양한 예측 모드를 기반으로 인터 예측이 수행될 수 있으며, 예를 들어 스킵 모드와 머지 모드의 경우에, 인터 예측부(180)는 주변 블록의 움직임 정보를 현재 블록의 움직임 정보로 이용할 수 있다. 스킵 모드의 경우, 머지 모드와 달리 레지듀얼 신호가 전송되지 않을 수 있다. 움직임 정보 예측(motion vector prediction, MVP) 모드의 경우, 주변 블록의 움직임 벡터를 움직임 벡터 예측자(motion vector predictor)로 이용하고, 움직임 벡터 차분(motion vector difference)을 시그널링함으로써 현재 블록의 움직임 벡터를 지시할 수 있다.

실시예들에 따른 인터 예측부(180) 또는 인트라 예측부(185)를 통해 생성된 예측 신호는 복원 신호를 생성하기 위해 이용되거나 레지듀얼 신호를 생성하기 위해 이용될 수 있다.

실시예들에 따른 변환부(120)는 레지듀얼 신호에 변환 기법을 적용하여 변환 계수들(transform coefficients)를 생성할 수 있다. 예를 들어, 변환 기법은 DCT(Discrete Cosine Transform), DST(Discrete Sine Transform), KLT(Karhunen-Loeve Transform), GBT(Graph-Based Transform), 또는 CNT(Conditionally Non-linear Transform) 중 적어도 하나를 포함할 수 있다. 여기서, GBT는 픽셀 간의 관계 정보를 그래프로 표현한다고 할 때 이 그래프로부터 얻어진 변환을 의미한다. CNT는 이전에 복원된 모든 픽셀(all previously reconstructed pixel)를 이용하여 예측 신호를 생성하고 그에 기초하여 획득되는 변환을 의미한다. 또한, 변환 과정은 정사각형의 동일한 크기를 갖는 픽셀 블록에 적용될 수도 있고, 정사각형이 아닌 가변 크기의 블록에도 적용될 수 있다.

실시예들에 따른 양자화부(130)는 변환 계수들을 양자화하여 엔트로피 인코딩부(190)로 전송되고, 엔트로피 인코딩부(190)는 양자화된 신호(양자화된 변환 계수들에 관한 정보)를 인코딩하여 비트스트림으로 출력할 수 있다. 상기 양자화된 변환 계수들에 관한 정보는 레지듀얼 정보라고 불릴 수 있다. 양자화부(130)는 계수 스캔 순서(scan order)를 기반으로 블록 형태의 양자화된 변환 계수들을 1차원 벡터 형태로 재정렬할 수 있고, 상기 1차원 벡터 형태의 양자화된 변환 계수들을 기반으로 상기 양자화된 변환 계수들에 관한 정보를 생성할 수도 있다. 엔트로피 인코딩부(190)는 예를 들어 지수 골롬(exponential Golomb), CAVLC(context-adaptive variable length coding), CABAC(context-adaptive binary arithmetic coding) 등과 같은 다양한 인코딩 방법을 수행할 수 있다. 엔트로피 인코딩부(190)는 양자화된 변환 계수들 외 비디오/이미지 복원에 필요한 정보들(예컨대 신택스 요소들(syntax elements)의 값 등)을 함께 또는 별도로 인코딩할 수도 있다. 인코딩된 정보(ex. 인코딩된 비디오/영상 정보)는 비트스트림 형태로 NAL(network abstraction layer) 유닛 단위로 전송 또는 저장될 수 있다. 상기 비트스트림은 네트워크를 통하여 전송될 수 있고, 또는 디지털 저장매체에 저장될 수 있다. 여기서 네트워크는 방송망 및/또는 통신망 등을 포함할 수 있고, 디지털 저장매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장매체를 포함할 수 있다. 엔트로피 인코딩부(190)로부터 출력된 신호는 전송하는 전송부(미도시) 및/또는 저장하는 저장부(미도시)가 인코딩 장치(100)의 내/외부 엘리먼트로서 구성될 수 있고, 또는 전송부는 엔트로피 인코딩부(190)에 포함될 수도 있다.

실시예들에 따른 양자화부(130)로부터 출력된 양자화된 변환 계수들은 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 양자화된 변환 계수들에 역양자화부(140) 및 역변환부(150)를 통해 역양자화 및 역변환을 적용함으로써 레지듀얼 신호(레지듀얼 블록 or 레지듀얼 샘플들)를 복원할 수 있다. 가산부(155)는 복원된 레지듀얼 신호를 인터 예측부(180) 또는 인트라 예측부(185)로부터 출력된 예측 신호에 더함으로써 복원(reconstructed) 신호(복원 픽처, 복원 블록, 복원 샘플 어레이)가 생성될 수 있다. 스킵 모드가 적용된 경우와 같이 처리 대상 블록에 대한 레지듀얼이 없는 경우, 예측된 블록이 복원 블록으로 사용될 수 있다. 가산부(155)는 복원부 또는 복원 블록 생성부라고 불릴 수 있다. 생성된 복원 신호는 현재 픽처 내 다음 처리 대상 블록의 인트라 예측을 위하여 사용될 수 있고, 후술하는 바와 같이 필터링을 거쳐서 다음 픽처의 인터 예측을 위하여 사용될 수도 있다.

실시예들에 따른 필터링부(160)는 복원 신호에 필터링을 적용하여 주관적/객관적 화질을 향상시킬 수 있다. 예를 들어 필터링부(160)은 복원 픽처에 다양한 필터링 방법을 적용하여 수정된(modified) 복원 픽처를 생성할 수 있고, 상기 수정된 복원 픽처를 메모리(170), 구체적으로 메모리(170)의 DPB에 저장할 수 있다. 상기 다양한 필터링 방법은 예를 들어, 디블록킹 필터링, 샘플 적응적 오프셋(sample adaptive offset), 적응적 루프 필터(adaptive loop filter), 양방향 필터(bilateral filter) 등을 포함할 수 있다. 필터링부(160)은 각 필터링 방법에 대한 설명에서 후술하는 바와 같이 필터링에 관한 다양한 정보를 생성하여 엔트로피 인코딩부(190)로 전달할 수 있다. 필터링 관한 정보는 엔트로피 인코딩부(190)에서 인코딩되어 비트스트림 형태로 출력될 수 있다.

실시예들에 따른 메모리(170)에 전송된 수정된 복원 픽처는 인터 예측부(180)에서 참조 픽처로 사용될 수 있다. 인코딩 장치는 이를 통하여 인터 예측이 적용되는 경우, 인코딩 장치(100)와 디코딩 장치에서의 예측 미스매치를 피할 수 있고, 부호화 효율도 향상시킬 수 있다.

실시예들에 따른 메모리(170) DPB는 수정된 복원 픽처를 인터 예측부(180)에서의 참조 픽처로 사용하기 위해 저장할 수 있다. 메모리(170)는 현재 픽처 내 움직임 정보가 도출된(또는 인코딩된) 블록의 움직임 정보 및/또는 이미 복원된 픽처 내 블록들의 움직임 정보를 저장할 수 있다. 상기 저장된 움직임 정보는 공간적 주변 블록의 움직임 정보 또는 시간적 주변 블록의 움직임 정보로 활용하기 위하여 인터 예측부(180)에 전달할 수 있다. 메모리(170)는 현재 픽처 내 복원된 블록들의 복원 샘플들을 저장할 수 있고, 인트라 예측부(185)에 전달할 수 있다.

한편, 상술한 예측, 변환, 양자화 절차 중 적어도 하나가 생략될 수도 있다. 예를 들어, PCM(pulse coding mode)가 적용되는 블록에 대하여는 예측, 변환, 양자화 절차를 생략하고 원본 샘플의 값이 그대로 인코딩되어 비트스트림으로 출력될 수도 있다.

도38은 실시예들에 따른 V-PCC decoding process 을 나타낸다.

실시예들에 따른 도면은 압축된 occupancy map, geometry image, texture image, auxiliary path information 복호화하여 point cloud를 재구성하기 위한 V-PCC의 decoding process를 도시하여 보여주고 있다. 같다. 각 process의 동작은 다음과 같다.

실시예들에 따른 Video decompression:

앞서 설명한 video compression의 역과정으로, HEVC, VVC 등의 2D video codec을 이용하여, 앞서 설명한 과정으로 생성된 geometry image, texture image, occupancy map image 등의 compressed bitstream을 복호화하는 과정이다.

도39는 실시예들에 따른 2D video/image decoder 을 나타낸다.

도면은 Video decompression이 적용되는 실시예로서, 비디오/영상 신호의 디코딩이 수행되는 2D video/image decoder(200)의 개략적인 블록도를 나타낸다. 상기 2D video/image decoder(200)은 상술한 point cloud video decoder에 포함될 수 있고, 또는 내/외부 컴포넌트로 구성될 수도 있다. 여기서 입력 비트스트림은 상술한 geometry image, texture image (attribute(s) image), occupancy map image 등에 대한 비트스트림을 포함할 수 있다. 상기 복원 영상(또는 출력 영상, 디코딩된 영상)은 상술한 geometry image, texture image (attribute(s) image), occupancy map image에 대한 복원 영상을 나타낼 수 있다.

도면들을 참조하면, 디코딩 장치(200)는 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(230), 가산부(235), 필터링부(240), 메모리(250), 인터 예측부(260) 및 인트라 예측부(265)를 포함하여 구성될 수 있다. 인터 예측부(260) 및 인트라 예측부(265)를 합쳐서 예측부라고 불릴 수 있다. 즉, 예측부는 인터 예측부(180) 및 인트라 예측부(185)를 포함할 수 있다. 역양자화부(220), 역변환부(230)를 합쳐서 레지듀얼 처리부라고 불릴 수 있다. 즉, 레지듀얼 처리부는 역양자화부(220), 역변환부(230)을 포함할 수 있다. 상술한 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(230), 가산부(235), 필터링부(240), 인터 예측부(260) 및 인트라 예측부(265)는 실시예에 따라 하나의 하드웨어 컴포넌트(예를 들어 디코더 또는 프로세서)에 의하여 구성될 수 있다. 또한 메모리(170)는 DPB(decoded picture buffer)를 포함할 수 있고, 디지털 저장 매체에 의하여 구성될 수도 있다.

실시예들에 따른 비디오/영상 정보를 포함하는 비트스트림이 입력되면, 디코딩 장치(200)는 도 0.2-1의 인코딩 장치에서 비디오/영상 정보가 처리된 프로세스에 대응하여 영상을 복원할 수 있다. 예를 들어, 디코딩 장치(200)는 인코딩 장치에서 적용된 처리 유닛을 이용하여 디코딩을 수행할 수 있다. 따라서 디코딩의 처리 유닛은 예를 들어 코딩 유닛일 수 있고, 코딩 유닛은 코딩 트리 유닛 또는 최대 코딩 유닛으로부터 쿼드 트리 구조 및/또는 바이너리 트리 구조를 따라서 분할될 수 있다. 그리고, 디코딩 장치(200)를 통해 디코딩 및 출력된 복원 영상 신호는 재생 장치를 통해 재생될 수 있다.

실시예들에 따른 디코딩 장치(200)는 도면의 인코딩 장치로부터 출력된 신호를 비트스트림 형태로 수신할 수 있고, 수신된 신호는 엔트로피 디코딩부(210)를 통해 디코딩될 수 있다. 예를 들어, 엔트로피 디코딩부(210)는 상기 비트스트림을 파싱하여 영상 복원(또는 픽처 복원)에 필요한 정보(ex. 비디오/영상 정보)를 도출할 수 있다. 예컨대, 엔트로피 디코딩부(210)는 지수 골롬 부호화, CAVLC 또는 CABAC 등의 코딩 방법을 기초로 비트스트림 내 정보를 디코딩하고, 영상 복원에 필요한 신택스 엘리먼트의 값, 레지듀얼에 관한 변환 계수의 양자화된 값 들을 출력할 수 있다. 보다 상세하게, CABAC 엔트로피 디코딩 방법은, 비트스트림에서 각 구문 요소에 해당하는 빈을 수신하고, 디코딩 대상 구문 요소 정보와 주변 및 디코딩 대상 블록의 디코딩 정보 혹은 이전 단계에서 디코딩된 심볼/빈의 정보를 이용하여 문맥(context) 모델을 결정하고, 결정된 문맥 모델에 따라 빈(bin)의 발생 확률을 예측하여 빈의 산술 디코딩(arithmetic decoding)를 수행하여 각 구문 요소의 값에 해당하는 심볼을 생성할 수 있다. 이때, CABAC 엔트로피 디코딩 방법은 문맥 모델 결정 후 다음 심볼/빈의 문맥 모델을 위해 디코딩된 심볼/빈의 정보를 이용하여 문맥 모델을 업데이트할 수 있다. 엔트로피 디코딩부(210)에서 디코딩된 정보 중 예측에 관한 정보는 예측부(인터 예측부(260) 및 인트라 예측부(265))로 제공되고, 엔트로피 디코딩부(210)에서 엔트로피 디코딩이 수행된 레지듀얼 값, 즉 양자화된 변환 계수들 및 관련 파라미터 정보는 역양자화부(220)로 입력될 수 있다. 또한, 엔트로피 디코딩부(210)에서 디코딩된 정보 중 필터링에 관한 정보는 필터링부(240)으로 제공될 수 있다. 한편, 인코딩 장치로부터 출력된 신호를 수신하는 수신부(미도시)가 디코딩 장치(200)의 내/외부 엘리먼트로서 더 구성될 수 있고, 또는 수신부는 엔트로피 디코딩부(210)의 구성요소일 수도 있다.

실시예들에 따른 역양자화부(220)에서는 양자화된 변환 계수들을 역양자화하여 변환 계수들을 출력할 수 있다. 역양자화부(220)는 양자화된 변환 계수들을 2차원의 블록 형태로 재정렬할 수 있다. 이 경우 상기 재정렬은 인코딩 장치에서 수행된 계수 스캔 순서를 기반하여 재정렬을 수행할 수 있다. 역양자화부(220)는 양자화 파라미터(예를 들어 양자화 스텝 사이즈 정보)를 이용하여 양자화된 변환 계수들에 대한 역양자화를 수행하고, 변환 계수들(transform coefficient)를 획득할 수 있다.

실시예들에 따른 역변환부(230)에서는 변환 계수들를 역변환하여 레지듀얼 신호(레지듀얼 블록, 레지듀얼 샘플 어레이)를 획득하게 된다.

실시예들에 따른 예측부는 현재 블록에 대한 예측을 수행하고, 상기 현재 블록에 대한 예측 샘플들을 포함하는 예측된 블록(predicted block)을 생성할 수 있다. 예측부는 엔트로피 디코딩부(210)로부터 출력된 상기 예측에 관한 정보를 기반으로 상기 현재 블록에 인트라 예측이 적용되는지 또는 인터 예측이 적용되는지 결정할 수 있고, 구체적인 인트라/인터 예측 모드를 결정할 수 있다.

실시예들에 따른 인트라 예측부(265)는 현재 픽처 내의 샘플들을 참조하여 현재 블록을 예측할 수 있다. 상기 참조되는 샘플들은 예측 모드에 따라 상기 현재 블록의 주변(neighbor)에 위치할 수 있고, 또는 떨어져서 위치할 수도 있다. 인트라 예측에서 예측 모드들은 복수의 비방향성 모드와 복수의 방향성 모드를 포함할 수 있다. 인트라 예측부(265)는 주변 블록에 적용된 예측 모드를 이용하여, 현재 블록에 적용되는 예측 모드를 결정할 수도 있다.

실시예들에 따른 인터 예측부(260)는 참조 픽처 상에서 움직임 벡터에 의해 특정되는 참조 블록(참조 샘플 어레이)을 기반으로, 현재 블록에 대한 예측된 블록을 유도할 수 있다. 이때, 인터 예측 모드에서 전송되는 움직임 정보의 양을 줄이기 위해 주변 블록과 현재 블록 간의 움직임 정보의 상관성에 기초하여 움직임 정보를 블록, 서브블록 또는 샘플 단위로 예측할 수 있다. 상기 움직임 정보는 움직임 벡터 및 참조 픽처 인덱스를 포함할 수 있다. 상기 움직임 정보는 인터 예측 방향(L0 예측, L1 예측, Bi 예측 등) 정보를 더 포함할 수 있다. 인터 예측의 경우에, 주변 블록은 현재 픽처 내에 존재하는 공간적 주변 블록(spatial neighboring block)과 참조 픽처에 존재하는 시간적 주변 블록(temporal neighboring block)을 포함할 수 있다. 예를 들어, 인터 예측부(260)는 주변 블록들을 기반으로 움직임 정보 후보 리스트를 구성하고, 수신한 후보 선택 정보를 기반으로 상기 현재 블록의 움직임 벡터 및/또는 참조 픽처 인덱스를 도출할 수 있다. 다양한 예측 모드를 기반으로 인터 예측이 수행될 수 있으며, 상기 예측에 관한 정보는 상기 현재 블록에 대한 인터 예측의 모드를 지시하는 정보를 포함할 수 있다.

실시예들에 따른 가산부(235)는 획득된 레지듀얼 신호를 인터 예측부(260) 또는 인트라 예측부(265)로부터 출력된 예측 신호(예측된 블록, 예측 샘플 어레이)에 더함으로써 복원 신호(복원 픽처, 복원 블록, 복원 샘플 어레이)를 생성할 수 있다. 스킵 모드가 적용된 경우와 같이 처리 대상 블록에 대한 레지듀얼이 없는 경우, 예측된 블록이 복원 블록으로 사용될 수 있다.

실시예들에 따른 가산부(235)는 복원부 또는 복원 블록 생성부라고 불릴 수 있다. 생성된 복원 신호는 현재 픽처 내 다음 처리 대상 블록의 인트라 예측을 위하여 사용될 수 있고, 후술하는 바와 같이 필터링을 거쳐서 다음 픽처의 인터 예측을 위하여 사용될 수도 있다.

실시예들에 따른 필터링부(240)는 복원 신호에 필터링을 적용하여 주관적/객관적 화질을 향상시킬 수 있다. 예를 들어 필터링부(240)는 복원 픽처에 다양한 필터링 방법을 적용하여 수정된(modified) 복원 픽처를 생성할 수 있고, 상기 수정된 복원 픽처를 메모리(250), 구체적으로 메모리(250)의 DPB에 전송할 수 있다. 상기 다양한 필터링 방법은 예를 들어, 디블록킹 필터링, 샘플 적응적 오프셋(sample adaptive offset), 적응적 루프 필터(adaptive loop filter), 양방향 필터(bilateral filter) 등을 포함할 수 있다.

실시예들에 따른 메모리(250)의 DPB에 저장된 (수정된) 복원 픽처는 인터 예측부(260)에서 참조 픽쳐로 사용될 수 있다. 메모리(250)는 현재 픽처 내 움직임 정보가 도출된(또는 디코딩된) 블록의 움직임 정보 및/또는 이미 복원된 픽처 내 블록들의 움직임 정보를 저장할 수 있다. 상기 저장된 움직임 정보는 공간적 주변 블록의 움직임 정보 또는 시간적 주변 블록의 움직임 정보로 활용하기 위하여 인터 예측부(260)에 전달할 수 있다. 메모리(170)는 현재 픽처 내 복원된 블록들의 복원 샘플들을 저장할 수 있고, 인트라 예측부(265)에 전달할 수 있다.

실시예들에 따라, 인코딩 장치(100)의 필터링부(160), 인터 예측부(180) 및 인트라 예측부(185)에서 설명된 실시예들은 각각 디코딩 장치(200)의 필터링부(240), 인터 예측부(260) 및 인트라 예측부(265)에도 동일 또는 대응되도록 적용될 수 있다.

한편, 상술한 예측, 변환, 양자화 절차 중 적어도 하나가 생략될 수도 있다. 예를 들어, PCM(pulse coding mode)가 적용되는 블록에 대하여는 예측, 변환, 양자화 절차를 생략하고 디코딩된 샘플의 값이 그대로 복원 영상의 샘플로 사용될 수도 있다.

실시예들에 따른 Occupancy map decompression:

앞서 설명한 occupancy map compression의 역과정으로, 압축된 occupancy map bitstream을 복호화하여 occupancy map을 복원하기 위한 과정이다.

실시예들에 따른 Auxiliary patch info decompression:

앞서 설명한 auxiliary patch info compression의 역과정으로, 압축된 auxiliary patch info bitstream 를 복호화하여 auxiliary patch info를 복원하기 위한 과정이다.

실시예들에 따른 Geometry reconstruction:

앞서 설명한 geometry image generation의 역과정이다. 먼저, 복원된 occupancy map 과 auxiliary patch info에 포함되는 patch의 2D 위치/크기 정보 및 block과 patch의 맵핑 정보를 이용하여 geometry image에서 patch를 추출한다. 이후 추출된 patch의 geometry image와 auxiliary patch info에 포함되는 patch의 3D 위치 정보를 이용하여 point cloud를 3차원 공간상에 복원한다. 하나의 patch내에 존재하는 임의의 점 (u, v)에 해당하는 geometry 값을 g(u, v)라 하고, patch의 3차원 공간상 위치의 normal 축, tangent 축, bitangent 축 좌표값을 (0, s0, r0)라 할 때, 점 (u, v)에 맵핑되는 3차원 공간상 위치의 normal 축, tangent 축, bitangent 축 좌표값인 (u, v), s(u, v), r(u, v)는 다음과 같이 나타낼 수 있다.

d(u, v) = d0 + g(u, v)

s(u, v) = s0 + u

r(u, v) = r0 + v

실시예들에 따른 Smoothing

앞서 설명한 encoding process에서의 smoothing과 동일하며, 압축 과정에서 발생하는 화질의 열화로 인해 patch 경계면에서 발생할 수 있는 불연속성을 제거하기 위한 과정이다.

실시예들에 따른 Texture reconstruction

Smoothing된 point cloud를 구성하는 각 점들에 color값을 부여하여 color point cloud를 복원하는 과정이다. 앞서 설명한 geometry reconstruction 과정에서의 geometry image와 point cloud의 맵핑 정보를 이용하여 2D 공간에서 geometry image에서와 동일한 위치의 texture image 픽셀에 해당되는 color 값들을, 3D 공간에서 동일한 위치에 대응되는 point cloud의 점에 부여함으로써 수행될 수 있다.

실시예들에 따른 Color smoothing

앞서 설명한 geometry smoothing의 과정과 유사하며, 압축 과정에서 발생하는 화질의 열화로 인해 patch 경계면에서 발생할 수 있는 color 값들의 불연속성을 제거하기 위한 작업이다. 다음과 같은 과정으로 수행될 수 있다.

① K-D tree 등을 이용하여 복원된 color point cloud를 구성하는 각 점들의 인접점들을 산출한다. 2.5절에서 설명한 geometry smoothing 과정에서 산출된 인접점 정보를 그대로 이용할 수도 있다.

② 각 점들에 대하여, 해당 점이 patch 경계면에 위치하는지를 판단한다. 앞서 설명한 geometry smoothing 과정에서 산출된 경계면 정보를 그대로 이용할 수도 있다.

③ 경계면에 존재하는 점의 인접점들에 대하여, color 값의 분포를 조사하여 smoothing 여부를 판단한다. 일례로, 휘도값의 entropy가 경계 값 (threshold local entry) 이하일 경우 (유사한 휘도 값들이 많을 경우), edge가 아닌 부분으로 판단하여 smoothing을 수행할 수 있다. Smoothing의 방법으로 인접접들의 평균값으로 해당 점의 color값을 바꾸는 방법 등이 사용될 수 있다

도40는 실시예들에 따른 송신단 동작 흐름도를 나타낸다.

실시예들에 따른 V-PCC를 이용한 포인트 클라우드 데이터의 압축 및 전송을 위한 송신단의 동작 과정은 도면과 같을 수 있다.

먼저, 포인트 클라우드(point cloud)의 2D 이미지 맵핑을 위한 패치 (patch)를 생성한다. 패치 생성의 결과물로 부가 패치 정보가 생성되며, 해당 정보는 지오메트리 이미지 (geometry image) 생성, 텍스처 이미지 (texture image) 생성, 스무딩 (smoothing)을 위한 지오메트리 복원과정에 사용될 수 있다. 생성된 패치들은 2D 이미지 안에 맵핑하는 패치 패킹 과정을 거치게 된다. 패치 패킹의 결과물로 오큐판시 맵 (occupancy map)을 생성할 수 있으며, 오큐판시 맵은 지오메트리 이미지 생성, 텍스처 이미지 생성, 스무딩을 위한 지오메트리 복원과정에 사용될 수 있다. 이후 부가 패치 정보와 오큐판시 맵을 이용하여 지오메트리 이미지가 생성되며, 생성된 지오메트리 이미지는 비디오 부호화를 통해 하나의 비트스트림 (bitstream)으로 부호화된다. 부호화 전처리는 이미지 패딩 절차를 포함할 수 있다. 생성된 지오메트리 이미지 또는 부호화된 지오메트리 비트스트림을 복호화하여 재생성된 지오메트리 이미지는 3차원 지오메트리 복원에 사용될 수 있고 이후 스무딩 과정을 거칠 수 있다. 텍스처 이미지 생성부는 (스무딩된) 3차원 지오메트리와 포인트 클라우드, 부가 패치 정보 및 오큐판시 맵을 이용하여 텍스처 이미지를 생성할 수 있다. 생성된 텍스처 이미지는 하나의 비디오 비트스트림으로 부호화될 수 있다. 부가 패치 정보는 메타데이터 부호화부에서 하나의 메타데이터 비트스트림으로 부호화될 수 있으며, 오큐판시 맵은 비디오 부호화부에서 하나의 비디오 비트스트림으로 부호화될 수 있다. 생성된 지오메트리, 텍스처 이미지, 오큐판시 맵의 비디오 비트스트림과 부가 패치 정보 메타데이터 비트스트림은 하나의 비트스트림으로 다중화되어 송신부를 통해 수신단에 전송될 수 있다. 또는 생성된 지오메트리, 텍스처 이미지, 오큐판시 맵의 비디오 비트스트림과 부가 패치 정보 메타데이터 비트스트림은 하나 이상의 트랙 데이터로 파일이 생성되거나 세그먼트로 인캡슐레이션 되어 송신부를 통해 수신단에 전송 될 수 있다.

실시예들에 따른 오큐판시 맵은 패치 매핑 및 전송 과정에서 패치 이외에 영역, 예를 들어 검은색 영역(패딩된 영역)일 수 있는 부분에 대한 분포 정보를 포함한다. 실시예들에 따른 디코더 또는 수신기는 오큐판시 맵 및 오실러리 패치 인포메이션에 기반하여 패치 및 패딩 영역을 식별할 수 있다.

도41는 실시예들에 따른 수신단 동작 흐름도를 나타낸다.

실시예들에 따른 V-PCC를 이용한 포인트 클라우드 데이터의 수신 및 복원을 위한 수신단의 동작 과정은 도면과 같을 수 있다.

수신된 포인트 클라우드의 비트스트림은 파일/세그먼트 디캡슐레이션 후 압축된 지오메트리 이미지, 텍스처 이미지, 오큐판시 맵의 비디오 비트스트림들과 부가 패치 정보 메테데이터 비트스트림으로 역다중화된다. 비디오 복호화부와 메타데이터 복호화부는 역다중화된 비디오 비트스트림들과 메타데이터 비트스트림을 복호화한다. 복호화된 지오메트리 이미지와 오큐판시 맵 및 부가 패치 정보를 이용하여 3차원 지오메트리가 복원되며 이후 스무딩 과정을 거친다. 스무딩된 3차원 지오메트리에 텍스처 이미지를 이용하여 컬러값을 부여함으로써 컬러 포인트 클라우드 영상/픽처가 복원될 수 있다. 이후 객관적/주관적 비주얼 퀄리티 향상을 위하여 컬러 스무딩 (color smoothing)과정을 추가적으로 수행할 수 있으며, 이를 통하여 도출된 수정된(modified) 포인트 클라우드 영상/픽처는 렌더링 과정을 통하여(ex. by 포인트 클라우드 렌더러)를 통해 사용자에게 보여진다. 한편, 상기 컬러 스무딩 과정은 경우에 따라 생략될 수 있다.

실시예들에서는 사용자에게 VR (Virtual Reality, 가상현실), AR (Augmented Reality, 증강현실), MR (Mixed Reality, 혼합현실), 및 자율 주행 등 다양한 서비스를 지원하는Point Cloud 데이터를 저장 및 스트리밍 방안을 제공한다.

도면은 Video-based Point Cloud Compression(이하 V-PCC) 를 기반으로 압축되는 point cloud 데이터를 저장 혹은 스트리밍을 위한 전체 아키텍쳐를 도시한 도면이다. Point cloud 데이터 저장 및 스트리밍의 과정은 획득 과정, 인코딩 과정, 전송 과정, 디코딩 과정, 랜더링 과정 및/또는 피드백 과정을 포함할 수 있다.

실시예들은 point cloud 미디어/콘텐츠/데이터를 효과적으로 제공하는 방안을 제안한다. Point cloud 미디어/콘텐츠/데이터를 효과적으로 제공하기 위하여 먼저, point cloud 비디오가 획득될 수 있다. 예를 들어 하나 이상의 카메라를 통하여 Point Cloud의 캡처, 합성 또는 생성 과정 등을 통한 Point Cloud 데이터를 획득할 수 있다. 이러한 획득 과정에 의해 각 포인트의 3D 위치(x, y, z 위치 값 등으로 나타낼 수 있다. 이하 이를 지오메트리라고 일컫는다), 각 포인트의 속성 (color, reflectance, transparency 등)을 포함하는 point cloud 비디오를 획득할 수 있으며 이를 포함하는, 예를 들어, PLY(Polygon File format or the Stanford Triangle format) 파일 등으로 생성 될 수 있다. 여러 개의 프레임을 갖는 point cloud 데이터의 경우 하나 이상의 파일들이 획득될 수 있다. 이러한 과정에서 point cloud 관련 메타데이터 (예를 들어 캡처 등과 관련된 메타데이터 등)가 생성될 수 있다.

캡쳐된 Point Cloud 비디오는 콘텐츠의 질을 향상시키기 위한 후처리가 필요할 수 있다. 영상 캡쳐 과정에서 카메라 장비가 제공하는 범위에서 최대/최소 깊이 값을 조정할 수 있지만 그 이후에도 원하지 않는 영역의 points 데이터들이 포함될 수 있어서 원하지 않는 영역(예, 배경)을 제거 한다거나, 또는 연결된 공간을 인식하고 구멍(spatial hole)을 메우는 후처리를 수행할 수 있다. 또한 공간 좌표계를 공유하는 카메라들로부터 추출된 Point Cloud는 캘리브레이션 과정을 통해 획득된 각 카메라의 위치 좌표를 기준으로 각 point들에 대한 글로벌 좌표계로의 변환 과정을 통해 하나의 콘텐츠로 통합될 수 있다. 이를 통해point들의 밀도가 높은 Point Cloud 비디오를 획득할 수도 있다.

Point Cloud 전처리부(point cloud pre-processing) 는 point cloud 비디오를 하나 이상의 픽처(picture)/프레임(frame)을 생성할 수 있다. 여기서 픽처(picture)/프레임(frame)은 일반적으로 특정 시간대의 하나의 영상을 나타내는 단위를 의미할 수 있다. Point cloud 비디오를 구성하는 점들을 하나 이상의 패치(point cloud를 구성하는 점들의 집합으로, 같은 patch에 속하는 점들은 3차원 공간상에서 서로 인접해 있으며 2D 이미지로의 맵핑 과정에서 6면의 bounding box 평면 중 같은 방향으로 맵핑되는 점들의 집합)로 나누어2D 평면에 맵핑할 때 2D 평면의 해당 위치에 데이터가 존재하는 여부를 0 또는 1의 값으로 알려주는 2진 맵 (binary map) 인어큐판시(occupancy) 맵 픽처/프레임을 생성할 수 있다. 그리고 Point Cloud 비디오를 이루는 각 점들의 위치 정보 (geometry)를 패치 단위로 표현하는 depth map 형태의 픽처/프레임인 지오메트리 픽처/프레임을 생성할 수 있다. Point cloud 비디오를 이루는 각 점들의 색상 정보를 패치 단위로 표현하는 픽처/프레임인 텍스처 픽츠/프레임을 생성할 수 있다.이러한 과정에서 개별 패치들로부터 point cloud를 재구성하기 위해 필요한 메타데이터가 생성될 수 있으며 이는 각 패치의2D/3D 공간에서의 위치, 크기 등 패치에 대한 정보를 포함할 수 있다. 이러한 픽처/프레임들이 시간순으로 연속적으로 생성되어 비디오 스트림 혹은 메타데이터 스트림을 구성할 수 있다.

Point Cloud 비디오 인코더는Point Cloud 비디오와 연관된 하나 이상의 비디오 스트림으로 인코딩할 수 있다. 하나의 비디오는 다수의 프레임을 포함할 수 있으며, 하나의 프레임은 정지 영상/픽처에 대응될 수 있다. 본 문서에서, Point Cloud 비디오라 함은 Point Cloud 영상/프레임/픽처를 포함할 수 있으며, Point Cloud 비디오는 Point Cloud 영상/프레임/픽처와 혼용되어 사용될 수 있다. Point Cloud 비디오 인코더는 Video-based Point Cloud Compression (V-PCC) 절차를 수행할 수 있다. Point Cloud 비디오 인코더는 압축 및 코딩 효율을 위하여 예측, 변환, 양자화, 엔트로피 코딩 등의 일련의 절차를 수행할 수 있다. 인코딩된 데이터(인코딩된 비디오/영상 정보)는 비트스트림(bitstream) 형태로 출력될 수 있다. V-PCC 절차에 기반하는 경우 Point Cloud 비디오 인코더는 Point Cloud 비디오를 후술하는 바와 같이 지오메트리 비디오, 어트리뷰트(attribute) 비디오, 어큐판시(occupancy) 맵 비디오, 그리고 메타데이터, 예를 들어 패치에 대한 정보로 나누어 인코딩할 수 있다. 상기 지오메트리 비디오는 지오메트리 이미지를 포함할 수 있고, 상기 어트리뷰트(attribute) 비디오는 어트리뷰트 이미지를 포함할 수 있고, 상기 어큐판시(occupancy) 맵 비디오는 어큐판시 맵 이미지를 포함할 수 있다. 상기 부가 정보인 패치 데이터는 패치 관련 정보를 포함할 수 있다. 상기 어트리뷰트 비디오/이미지는 텍스쳐 비디오/이미지를 포함할 수 있다.

Point Cloud 이미지 인코더는Point Cloud 비디오와 연관된 하나 이상의 이미지로 인코딩할 수 있다. Point Cloud이미지인코더는 Video-based Point Cloud Compression (V-PCC) 절차를 수행할 수 있다. Point Cloud이미지 인코더는 압축 및 코딩 효율을 위하여 예측, 변환, 양자화, 엔트로피 코딩 등의 일련의 절차를 수행할 수 있다. 인코딩된 이미지는 비트스트림(bitstream) 형태로 출력될 수 있다. V-PCC 절차에 기반하는 경우 Point Cloud이미지 인코더는 Point Cloud 이미지를 후술하는 바와 같이 지오메트리 이미지, 어트리뷰트(attribute) 이미지, 어큐판시(occupancy) 맵 이미지, 그리고 메타데이터, 예를 들어 패치에 대한 정보로 나누어 인코딩할 수 있다.

인캡슐레이션(file/segment encapsulation)는 인코딩된 Point cloud데이터 및/또는 Point cloud관련 메타데이터를 파일 또는 스트리밍을 위한 세그먼트 등의 형태로 인캡슐레이션할 수 있다. 여기서 Point cloud 관련 메타데이터는 메타데이터 처리부 등으로부터 전달받은 것일 수 있다. 메타데이터 처리부는 상기 point cloud 비디오/이미지 인코더에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 인캡슐레이션 처리부는 해당 비디오/이미지/메타데이터를 ISOBMFF 등의 파일 포맷으로 인캡슐레이션하거나, DASH 세그먼트 등의 형태로 처리할 수 있다. 인캡슐레이션 처리부는 실시 예에 따라 Point cloud관련 메타데이터를 파일 포맷 상에 포함시킬 수 있다. Point cloud 메타데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나 파일 내에서 별도의 트랙내의 데이터로 포함될 수 있다. 실시 예에 따라, 인캡슐레이션 처리부는 Point cloud관련 메타데이터 자체를 파일로 인캡슐레이션할 수 있다.

전송 처리부는 파일 포맷에 따라 인캡슐레이션된 Point cloud데이터에 전송을 위한 처리를 가할 수 있다. 전송 처리부는 전송부에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 전송 처리부는 임의의 전송 프로토콜에 따라 Point cloud데이터를 처리할 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리를 포함할 수 있다. 실시 예에 따라 전송 처리부는 Point cloud 데이터 뿐 아니라, 메타데이터 처리부로부터 Point cloud 관련 메타데이터를 전달받아, 이 것에 전송을 위한 처리를 가할 수도 있다.

전송부는 point cloud 비트스트림 혹은 해당 비트스트림을 포함하는 파일/세그먼트를 디지털 저장매체 또는 네트워크를 통하여 수신 디바이스의 수신부로 전달할 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다.디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 전송부는 미리 정해진 파일 포멧을 통하여 미디어 파일을 생성하기 위한 엘리먼트를 포함할 수 있고, 방송/통신 네트워크를 통한 전송을 위한 엘레멘트를 포함할 수 있다. 수신부는 상기 비트스트림을 추출하여 디코딩 장치로 전달할 수 있다.

수신부는 실시예들에 따른 point cloud 데이터 전송 장치가 전송한 point cloud 데이터를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 point cloud데이터를 수신할 수도 있고, 브로드밴드를 통하여 point cloud데이터를 수신할 수도 있다. 혹은 디지털 저장 매체를 통하여 point cloud 비디오 데이터를 수신할 수도 있다. 수신부는 수신한 데이터를 디코딩 하고 이를 사용자의 뷰포트 등에 따라 랜더링하는 과정을 포함할 수 있다.

수신 처리부는 수신된 point cloud비디오 데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 수신부에 포함될 수 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 point cloud 비디오를 디캡슐레이션 처리부로 전달하고, 획득한 point cloud 관련 메타데이터는 메타데이터 파서로 전달할 수 있다.

디캡슐레이션 처리부(file/segment decapsulation)는 수신 처리부로부터 전달받은 파일 형태의 point cloud데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일들을 디캡슐레이션하여, point cloud비트스트림 내지 point cloud 관련 메타데이터(혹은 별도의 메타데이터 비트스트림)를 획득할 수 있다. 획득된 point cloud비트스트림은 상기 point cloud디코더로, 획득된 point cloud관련 메타데이터(혹은 메타데이터 비트스트림)는 메타데이터 처리부로 전달할 수 있다. 상기 point cloud비트스트림은 상기 메타데이터(메타데이터 비트스트림)를 포함할 수도 있다. 상기 메타데이터 처리부는 상기 point cloud 비디오 디코더에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 디캡슐레이션 처리부가 획득하는 point cloud관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 처리부로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다. 상기 point cloud관련 메타데이터는 상기 point cloud디코더에 전달되어 point cloud디코딩 절차에 사용될 수도 있고, 또는 렌더러에 전달되어 point cloud렌더링 절차에 사용될 수도 있다.

Point Cloud 비디오 디코더는 상기 비트스트림을 입력받아 상기 Point Cloud 비디오 인코더의 동작에 대응하는 동작을 수행하여 비디오/영상을 디코딩할 수 있다. 이 경우 Point Cloud 비디오 디코더는 Point Cloud 비디오를 후술하는 바와 같이 지오메트리 비디오, 어트리뷰트(attribute) 비디오, 어큐판시(occupancy) 맵 비디오, 그리고 부가적인 패치 관련 정보(auxiliary patch information )으로 나누어 디코딩할 수 있다. 상기 지오메트리 비디오는 지오메트리 이미지를 포함할 수 있고, 상기 어트리뷰트(attribute) 비디오는 어트리뷰트 이미지를 포함할 수 있고, 상기 어큐판시(occupancy) 맵 비디오는 어큐판시 맵 이미지를 포함할 수 있다. 상기 부가 정보는 부가 패치 정보(auxiliary patch information)를 포함할 수 있다. 상기 어트리뷰트 비디오/이미지는 텍스쳐 비디오/이미지를 포함할 수 있다.

센싱/트랙킹부(Sensing/Tracking)는 사용자 또는 수신측로부터 오리엔테이션 정보 및/또는 사용자 뷰포트 정보를 획득하여 수신부 및/또는 송신부에 전달한다. 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 나타내거나 혹은 사용자가 보고 있는 장치의 위치, 각도, 움직임 등에 대한 정보를 나타낼 수 있다. 이 정보를 기반으로 사용자가 현재 3차원 공간 상에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 3차원 공간 상에서 디바이스 혹은 HMD 등을 통하여 보고 있는 영역에 대한 정보일 수 있다. 디스플레이 등의 장치는 오리엔테이션 정보, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다. 오리엔테이션 혹은 뷰포트 정보는 수신측에서 추출 혹은 계산될 수 있다. 수신측에서 분석된 오리엔테이션 혹은 뷰포트 정보는 송신측으로 피드백 채널을 통해 전달될 수도 있다.

수신부는 센싱/트랙킹부에 의해 획득된 오리엔테이션 정보 및/또는사용자가 현재 보고 있는 영역을 나타내는뷰포트 정보를 사용하여 특정 영역, 즉 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 영역의 미디어 데이터만 효율적으로 파일에서 추출하거나 디코딩할 수 있다. 또한, 송신부는 센싱/트랙부에 의해 획득된 오리엔테이션 정보 및/또는 뷰포트 정보를 사용하여 특정 영역, 즉 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 영역의 미디어 데이터만 효율적으로 인코딩하거나 파일 생성 및 전송할 수 있다.

렌더러는 3차원 공간 상에 디코딩된 Point Cloud 데이터를 렌더링 할 수 있다. 렌더링된 비디오/영상은 디스플레이부를 통하여 디스플레이될 수 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링 된 결과의 전부 또는 일부 영역을 볼 수 있다.

피드백 과정은 렌더링/디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하거나 수신측의 디코더에 전달하는 과정을 포함할 수 있다. 피드백 과정을 통해 Point Cloud 데이터 소비에 있어 인터랙티비티(interactivity)가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 전달될 수 있다. 실시 예에 따라, 사용자는 VR/AR/MR/자율주행 환경 상에 구현된 것들과 상호작용 할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시 예에 따라 피드백 과정은 수행되지 않을 수도 있다.

실시예에 따라 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디캡슐레이션 처리, 디코딩, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 point cloud 데이터가 우선적으로 디캡슐레이션, 디코딩 및 렌더링될 수도 있다.

실시예들에 따른 Point Cloud 데이터 저장 및 전송 장치는 Point Cloud 획득부(Point Cloud Acquisition), 패치 제너레이션(Patch Generation), 지오메트리 이미지 제너레이션(Geometry Image Generation), 어트리뷰트 이미지 제너레이션(Attribute Image Generation), 어큐판시 맵 제너레이션(Occupancy Map Generation), Auxiliary 데이터 제너레이션(Auxiliary Data Generation), Mesh 데이터 제너레이션(Mesh Data Generation), 비디오 인코딩(Video Encoding), 이미지 인코딩(Image Encoding), 파일/세그먼트 인캡슐레이션부(File/Segment Encapsulation),딜리버리부(Delivery)를 포함한다. 실시예들에 따라서, 패치 제너레이션, 지오메트리 이미지 제너레이션, 어트리뷰트 이미지 제너레이션, 어큐판시 맵 제너레이션, Auxiliary 데이터 제너레이션, Mesh 데이터 제너레이션은 포인트 클라우드 프리-프로세싱(Point Cloud Pre-processing), 프리-프로세서 또는 제어부라고 명명할 수 있다. 비디오 인코딩부는 지오메트리 비디오 컴프레션(Geometry video compression), 어트리뷰트 비디오 컴프레션(Attribute video compression), 어큐판시 맵 컴프레션(Occupancy map compression), Auxiliary 데이터 컴프레션(Auxiliary data compression), Mesh 데이터 컴프레션(Mesh data compression)을 포함한다. 이미지 인코딩부는 지오메트리 비디오 컴프레션(Geometry video compression), 어트리뷰트 비디오 컴프레션(Attribute video compression), 어큐판시 맵 컴프레션(Occupancy map compression), Auxiliary 데이터 컴프레션(Auxiliary data compression), Mesh 데이터 컴프레션(Mesh data compression)을 포함한다. 파일/세그먼트 인캡슐레이션부는 비디오 트랙 인캡슐레이션(Video Track Encapsulation), 메타데이터 트랙 인캡슐레이션(Metadata Track Encapsulation), 이미지 인캡슐레이션(Image Encapsulation)을 포함한다. 전송 장치의 각 구성은 모듈/유닛/컴포넌트/하드웨어/소프트웨어/프로세서 등일 수 있다.

Point cloud 의 geometry, attribute, auxiliary data, mesh data 등은 각각 별도의 스트림으로 구성되거나 혹은 파일 내 각각 다른 트랙에 저장될 수 있다. 더 나아가 별도의 세그먼트에 포함될 수 있다.

Point Cloud 획득부(Point Cloud Acquisition)은 point cloud 를 획득한다. 예를 들어 하나 이상의 카메라를 통하여 Point Cloud의 캡쳐, 합성 또는 생성 과정 등을 통한 Point Cloud 데이터를 획득할 수 있다. 이러한 획득 과정에 의해 각 포인트의 3D 위치(x, y, z 위치 값 등으로 나타낼 수 있다. 이하 이를 지오메트리라고 일컫는다), 각 포인트의 속성 (color, reflectance, transparency 등)을 포함하는 point cloud 데이터를 획득할 수 있으며 이를 포함하는, 예를 들어, PLY(Polygon File format or the Stanford Triangle format) 파일 등으로 생성 될 수 있다. 여러 개의 프레임을 갖는 point cloud 데이터의 경우 하나 이상의 파일들이 획득될 수 있다. 이러한 과정에서 point cloud 관련 메타데이터 (예를 들어 캡처 등과 관련된 메타데이터 등)가 생성될 수 있다.

패치 제너레이션(Patch Generation) 또는 패치 제너레이터는 포인트 클라우드 데이터로부터 패치를 생성한다. 패치 제너레이터는 포인트 클라우드 데이터 또는 포인트 클라우드 비디오를 하나 이상의 픽처(picture)/프레임(frame)으로 생성한다. 픽처(picture)/프레임(frame)은 일반적으로 특정 시간대의 하나의 영상을 나타내는 단위를 의미할 수 있다. Point cloud 비디오를 구성하는 점들을 하나 이상의 패치(point cloud를 구성하는 점들의 집합으로, 같은 patch에 속하는 점들은 3차원 공간상에서 서로 인접해 있으며 2D 이미지로의 맵핑 과정에서 6면의 bounding box 평면 중 같은 방향으로 맵핑되는 점들의 집합)로 나누어2D 평면에 맵핑할 때 2D 평면의 해당 위치에 데이터가 존재하는 여부를 0 또는 1의 값으로 알려주는 2진 맵 (binary map) 인 어큐판시(occupancy) 맵 픽처/프레임을 생성할 수 있다. 그리고 Point Cloud 비디오를 이루는 각 점들의 위치 정보 (geometry)를 패치 단위로 표현하는 depth map 형태의 픽처/프레임인 지오메트리 픽처/프레임을 생성할 수 있다. Point cloud 비디오를 이루는 각 점들의 색상 정보를 패치 단위로 표현하는 픽처/프레임인 텍스처 픽처/프레임을 생성할 수 있다. 이러한 과정에서 개별 패치들로부터 point cloud를 재구성하기 위해 필요한 메타데이터가 생성될 수 있으며 이는 각 패치의2D/3D 공간에서의 위치, 크기 등 패치에 대한 정보를 포함할 수 있다. 이러한 픽처/프레임들이 시간순으로 연속적으로 생성되어 비디오 스트림 혹은 메타데이터 스트림을 구성할 수 있다.

또한, 패치는 2D 이미지 맵핑을 위해 사용될 수 있다. 예를 들어, 포인트 클라우드 데이터가 정육면체의 각 면에 프로젝션될 수 있다. 패치 제너레이션 후, 생성된 패치를 기반으로 지오메트리 이미지, 하나 또는 하나 이상의 어트리뷰트 이미지, 어큐판시 맵, Auxiliary 데이터 및/또는 Mesh 데이터 등이 생성될 수 있다.

프리-프로세서 또는 제어부(controller)에 의해 지오메트리 이미지 제너레이션(Geometry Image Generation), 어트리뷰트 이미지 제너레이션(Attribute Image Generation), 어큐판시 맵 제너레이션(Occupancy Map Generation), Auxiliary 데이터 제너레이션(Auxiliary Data Generation) 및/또는 Mesh 데이터 제너레이션(Mesh Data Generation)이 수행된다.

지오메트리 이미지 제너레이션(Geometry Image Generation)은 패치 제너레이션의 결과물에 기반하여 지오메트리 이미지를 생성한다. 지오메트리는 3차원 공간상의 포인트를 나타낸다. 패치에 기반하여 패치의 2D이미지 패킹에 관련된 정보를 포함하는 어큐판시 맵, Auxiliary 데이터(패치 데이터) 및/또는 Mesh 데이터 등을 사용하여, 지오메트리 이미지가 생성된다. 지오메트리 이미지는 패치 제너레이션 후 생성된 패치에 대한 뎁스(e.g., near, far) 등의 정보와 관련된다.

어트리뷰트 이미지 제너레이션(Attribute Image Generation)은 어트리뷰트 이미지를 생성한다. 예를 들어, 어트리뷰트는 텍스쳐(Texture)를 나타낼 수 있다. 텍스쳐는 각 포인트에 매칭되는 컬러 값일 수 있다. 실시예들에 따라서, 텍스쳐를 포함한 복수 개(N개)의 어트리뷰트(color, reflectance 등의 속성) 이미지가 생성될 수 있다. 복수 개의 어트리뷰트는 머터리얼 (재질에 대한 정보), 리플렉턴스 등을 포함할 수 있다. 또한, 실시예들에 따라 어트리뷰트는 같은 텍스쳐라도 시각, 빛에 의해 컬러가 달라질 수 있는 정보를 추가적으로 포함할 수 있다.

어큐판시 맵 제너레이션(Occupancy Map Generation)은 패치로부터 어큐판시 맵을 생성한다. 어큐판시 맵은 해당 지오메트리 혹은 에트리뷰트 이미지 등의 픽셀에 데이터의 존재 유무를 나타내는 정보를 포함한다.

Auxiliary 데이터 제너레이션(Auxiliary Data Generation)은 패치에 대한 정보를 포함하는Auxiliary 데이터를 생성한다. 즉, Auxiliary 데이터는 Point Cloud객체의 패치에 관한 메타데이터를 나타낸다. 예를 들어, 패치에 대한 노멀(normal) 벡터 등의 정보를 나타낼 수 있다. 구체적으로, 실시예들에 따라 Auxiliary 데이터는 패치들로부터 포인트 클라우드를 재구성하기 위해서 필요한 정보를 포함할 수 있다(예를 들어, 패치의 2D/3D 공간 상 위치, 크기 등에 대한 정보, 프로젝션 평명(normal) 식별 정보, 패치 매핑 정보 등)

Mesh 데이터 제너레이션(Mesh Data Generation)은 패치로부터 Mesh 데이터를 생성한다. Mesh 는 인접한 포인트 들간의 연결정보를 나타낸다. 예를 들어, 삼각형 형태의 데이터를 나타낼 수 있다. 예를 들어, 실시예들에 따른 Mesh 데이터는 각 포인트 간의커넥티비티(connectivity) 정보를 의미한다.

포인트 클라우드 프리-프로세서 또는 제어부는 패치 제너레이션, 지오메트리 이미지 제너레이션, 어트리뷰트 이미지 제너레이션, 어큐판시 맵 제너레이션, Auxiliary 데이터 제너레이션, Mesh 데이터 제너레이션에 관련된 메타데이터(Metadata)를 생성한다.

포인트 클라우드 전송 장치는 프리-프로세서에서 생성된 결과물에 대응하여 비디오 인코딩 및/또는 이미지 인코딩을 수행한다. 포인트 클라우드 전송 장치는 포인트 클라우드 비디오 데이터뿐만 아니라 포인트 클라우드 이미지 데이터를 생성할 수 있다.실시예들에 따라 포인트 클라우드 데이터는 오직 비디오 데이터, 오직 이미지 데이터 및/또는 비디오 데이터 및 이미지 데이터 둘 다를 포함하는 경우가 있을 수 있다.

비디오 인코딩부는 지오메트리 비디오 컴프레션, 어트리뷰트 비디오 컴프레션, 어큐판시 맵 컴프레션, Auxiliary 데이터 컴프레션 및/또는 Mesh 데이터 컴프레션을 수행한다. 비디오 인코딩부는 각 인코딩된 비디오 데이터를 포함하는 비디오 스트림(들)을 생성한다.

구체적으로, 지오메트리 비디오 컴프레션은 point cloud 지오메트리 비디오 데이터를 인코딩한다. 어트리뷰트 비디오 컴프레션은 point cloud 의 어트리뷰트 비디오 데이터를 인코딩한다. Auxiliary 데이터 컴프레션은 point cloud 비디오 데이터와 연관된 Auxiliary 데이터를 인코딩한다. Mesh 데이터 컴프레션(Mesh data compression)은 Point Cloud 비디오 데이터의 Mesh 데이터를 인코딩한다. 포인트 클라우드 비디오 인코딩부의 각 동작은 병렬적으로 수행될 수 있다.

이미지 인코딩부는 지오메트리 이미지 컴프레션, 어트리뷰트 이미지 컴프레션, 어큐판시 맵 컴프레션, Auxiliary 데이터 컴프레션 및/또는 Mesh 데이터 컴프레션을 수행한다. 이미지 인코딩부는 각 인코딩된 이미지 데이터를 포함하는 이미지(들)을 생성한다.

구체적으로, 지오메트리 이미지 컴프레션은 point cloud 지오메트리 이미지 데이터를 인코딩한다. 어트리뷰트 이미지 컴프레션은 point cloud 의 어트리뷰트 이미지 데이터를 인코딩한다. Auxiliary 데이터 컴프레션은 point cloud 이미지 데이터와 연관된 Auxiliary 데이터를 인코딩한다. Mesh 데이터 컴프레션(Mesh data compression)은 point cloud 이미지 데이터와 연관된 Mesh 데이터를 인코딩한다. 포인트 클라우드 이미지 인코딩부의 각 동작은 병렬적으로 수행될 수 있다.

비디오 인코딩부 및/또는 이미지 인코딩부는 프리-프로세서로부터 메타데이터를 수신할 수 있다. 비디오 인코딩부 및/또는 이미지 인코딩부는 메타데이터에 기반하여 각 인코딩 과정을 수행할 수 있다.

파일/세그먼트 인캡슐레이션(File/Segment Encapsulation)부는 비디오 스트림(들) 및/또는 이미지(들)을 파일 및/또는 세그먼트의 형태로 인캡슐레이션한다. 파일/세그먼트 인캡슐레이션부는 비디오 트랙 인캡슐레이션, 메타데이터 트랙 인캡슐레이션 및/또는 이미지 인캡슐레이션을 수행한다.

비디오 트랙 인캡슐레이션은 하나 또는 하나 이상의 비디오 스트림을 하나 또는 하나 이상의 트랙에 인캡슐레이션할 수 있다.

메타데이터 트랙 인캡슐레이션은 비디오 스트림 및/또는 이미지에 관련된 메타데이터를 하나 또는 하나 이상의 트랙에 인캡슐레이션할 수 있다. 메타데이터는 포인트 클라우드 데이터의 컨텐츠에 관련된 데이터를 포함한다. 예를 들어, 이니셜 뷰잉 오리엔테이션 메타데이터(Initial Viewing Orientation Metadata)를 포함할 수 있다. 실시예들에 따라 메타데이터는 메타데이터 트랙에 인캡슐레이션 될 수 있고, 또는 비디오 트랙이나 이미지 트랙에 함께 인캡슐레이션될 수 있다.

이미지 인캡슐레이션은 하나 또는 하나 이상의 이미지들을 하나 또는 하나 이상의 트랙 혹은 아이템에 인캡슐레이션할 수 있다.

예를 들어,실시예들에 따라 비디오 스트림이 4개 및 이미지가 2개를 인캡슐레이션부에 입력되는 경우, 4개의 비디오 스트림 및 2개의 이미지를 하나의 파일 안에 인캡슐레이션할 수 있다.

파일/세그먼트 인캡슐레이션부는 프리-프로세서로부터 메타데이터를 수신할 수 있다. 파일/세그먼트 인캡슐레이션부는 메타데이터에 기반하여 인캡슐레이션을 할 수 있다.

파일/세그먼트 인캡슐레이션에 의해 생성된 파일 및/또는 세그먼트는 포인트 클라우드 전송 장치 또는 전송부에 의해서 전송된다. 예를 들어, DASH 기반의 프로토콜에 기반하여 세그먼트(들)이 딜리버리(Delivery)될 수 있다.

딜리버리부(Delivery)는 point cloud 비트스트림 혹은 해당 비트스트림을 포함하는 파일/세그먼트를 디지털 저장매체 또는 네트워크를 통하여 수신 디바이스의 수신부로 전달할 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다.디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 딜리버리부는 미리 정해진 파일 포멧을 통하여 미디어 파일을 생성하기 위한 엘리먼트를 포함할 수 있고, 방송/통신 네트워크를 통한 전송을 위한 엘레멘트를 포함할 수 있다. 딜리버리부는 수신부로부터 오리엔테이션 정보 및/또는 뷰포트 정보를 수신한다. 딜리버리부는 획득한 오리엔테이션 정보 및/또는 뷰포트 정보(또는 사용자가 선택한 정보)를 프리-프로세서, 비디오 인코딩부, 이미지 인코딩부, 파일/세그먼트 인캡슐레이션부 및/또는 포인트 클라우드 인코딩부에 전달할 수 있다. 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 포인트 클라우드 인코딩부는 모든 포인트 클라우드 데이터를 인코딩하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 인코딩할 수 있다. 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 파일/세그먼트 인캡슐레이션부는 모든 포인트 클라우드 데이터를 인캡슐레이션하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 인캡슐레이션할 수 있다. 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 딜리버리부는 모든 포인트 클라우드 데이터를 딜리버리하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 딜리버리할 수 있다.

예를 들어, 프리-프로세서는 모든 포인트 클라우드 데이터에 대해 상술한 동작을 수행하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터에 대해 상술한 동작을 수행할 수 있다. 비디오 인코딩부 및/또는 이미지 인코딩부는 모든 포인트 클라우드 데이터에 대해 상술한 동작을 수행하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터에 대해 상술한 동작을 수행할 수 있다. 파일/세그먼트 인캡슐레이션부는 모든 포인트 클라우드 데이터에 대해 상술한 동작을 수행하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터에 대해 상술한 동작을 수행할 수 있다. 전송부는 모든 포인트 클라우드 데이터에 대해 상술한 동작을 수행하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터에 대해 상술한 동작을 수행할 수 있다.

실시예들에 따른 Point Cloud 데이터 수신 장치는 딜리버리 클라이언트(Delivery Client), 센싱/트랙킹부(Sensing/Tracking), 파일/세그먼트 디캡슐레이션부(File/Segment decapsulation), 비디오 디코딩부(Video Decoding), 이미지 디코딩부(Image Decoding), 포인트 클라우드 프로세싱 및/또는 Point Cloud 렌더링부(Point Cloud Rendering), 디스플레이를 포함한다. 비디오 디코딩부는 지오메트리 비디오 디컴프레션(Geometry Video Decompression), 어트리뷰트 비디오 디컴프레션(Attribute Video Decompresssion), 어큐판시 맵 디컴프레션(Occupancy Map Decompression), Auxiliary 데이터 디컴프레션(Auxiliary Data Decompression) 및/또는 Mesh 데이터 디컴프레션(Mesh Data Decompression)를 포함한다. 이미지 디코딩부는 지오메트리 이미지 디컴프레션(Geometry Image Decompression), 어트리뷰트 이미지 디컴프레션(Attribute Image Decompresssion), 어큐판시 맵 디컴프레션(Occupancy Map Decompression), Auxiliary 데이터 디컴프레션(Auxiliary Data Decompression) 및/또는 Mesh 데이터 디컴프레션(Mesh Data Decompression)를 포함한다. 포인트 클라우드 프로세싱은 지오메트리 리컨스턱션(Geometry Reconstruction), 어트리뷰트 리컨스트럭션(Attribute Reconstruction)를 포함한다.

수신 장치의 각 구성은 모듈/유닛/컴포넌트/하드웨어/소프트웨어/프로세서 등일 수 있다.

딜리버리 클라이언트(Delivery Client)는 실시예들에 따른 point cloud 데이터 전송 장치가 전송한 point cloud 데이터, point cloud 비트스트림 혹은 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수 있다. 전송되는 채널에 따라 수신부는 방송망을 통하여 point cloud데이터를 수신할 수도 있고, 브로드밴드를 통하여 point cloud데이터를 수신할 수도 있다. 혹은 디지털 저장 매체를 통하여 point cloud 비디오 데이터를 수신할 수도 있다. 수신부는 수신한 데이터를 디코딩 하고 이를 사용자의 뷰포트 등에 따라 랜더링하는 과정을 포함할 수 있다. 수신 처리부는 수신된 point cloud데이터에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부는 수신부에 포함될 수 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 전송측에서 전송을 위한 처리가 수행된 것에 대응되도록, 수신 처리부는 전술한 전송 처리부의 역과정을 수행할 수 있다. 수신 처리부는 획득한 point cloud 데이터는 디캡슐레이션 처리부로 전달하고, 획득한 point cloud 관련 메타데이터는 메타데이터 파서로 전달할 수 있다.

센싱/트랙킹부(Sensing/Tracking)는 오리엔테이션 정보 및/또는 뷰포트 정보를 획득한다. 센싱/트랙킹부는 획득한 오리엔테이션 정보 및/또는 뷰포트 정보를 딜리버리 클라이언트, 파일/세그먼트 디캡슐레이션부, 포인트 클라우드 디코딩부에 전달할 수 있다.

딜리버리 클라이언트는 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 모든 포인트 클라우드 데이터를 수신하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 수신할 수 있다. 파일/세그먼트 디캡슐레이션부는 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 모든 포인트 클라우드 데이터를 디캡슐레이션하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디캡슐레이션할 수 있다. 포인트 클라우드 디코딩부(비디오 디코딩부 및/또는 이미지 디코딩부)는 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여, 모든 포인트 클라우드 데이터를 디코딩하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디코딩할 수 있다. 포인트 클라우드 프로세싱부는 모든 포인트 클라우드 데이터를 처리하거나 또는 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 처리할 수 있다.

파일/세그먼트 디캡슐레이션부(File/Segment decapsulation)는 비디오 트랙 디캡슐레이션(Video Track Decapsulation), 메타데이터 트랙 디캡슐레이션(Metadata Track Decapsulation) 및/또는 이미지 디캡슐레이션(Image Decapsulation)을 수행한다. 디캡슐레이션 처리부(file/segment decapsulation)는 수신 처리부로부터 전달받은 파일 형태의 point cloud데이터를 디캡슐레이션할 수 있다. 디캡슐레이션 처리부는 ISOBMFF 등에 따른 파일 혹은 세그먼트들을 디캡슐레이션하여, point cloud비트스트림 내지 point cloud 관련 메타데이터(혹은 별도의 메타데이터 비트스트림)를 획득할 수 있다. 획득된 point cloud비트스트림은 상기 point cloud디코더로, 획득된 point cloud관련 메타데이터(혹은 메타데이터 비트스트림)는 메타데이터 처리부로 전달할 수 있다. 상기 point cloud비트스트림은 상기 메타데이터(메타데이터 비트스트림)를 포함할 수도 있다. 상기 메타데이터 처리부는 상기 point cloud 비디오 디코더에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 디캡슐레이션 처리부가 획득하는 point cloud관련 메타데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부는 필요한 경우 메타데이터 처리부로부터 디캡슐레이션에 필요한 메타데이터를 전달받을 수도 있다. 상기 point cloud관련 메타데이터는 상기 point cloud디코더에 전달되어 point cloud디코딩 절차에 사용될 수도 있고, 또는 렌더러에 전달되어 point cloud렌더링 절차에 사용될 수도 있다. 파일/세그먼트 디캡슐레이션부는 포인트 클라우드 데이터에 관련된 메타데이터를 생성할 수 있다.

비디오 트랙 디캡슐레이션(Video Track Decapsulation)은 파일 및/또는 세그먼트에 포함된 비디오 트랙을 디캡슐레이션한다. 지오메트리 비디오, 어트리뷰트 비디오, 어큐판시 맵 , Auxiliary 데이터 및/또는 Mesh 데이터를 포함하는 비디오 스트림(들)을 디캡슐레이션한다.

메타데이터 트랙 디캡슐레이션(Metadata Track Decapsulation)은 포인트 클라우드 데이터에 관련된 메타데이터 및/또는 부가 데이터 등을 포함하는 비트스트림을 디캡슐레이션한다.

이미지 디캡슐레이션(Image Decapsulation)은 지오메트리 이미지, 어트리뷰트 이미지, 어큐판시 맵, Auxiliary 데이터 및/또는 Mesh 데이터를 포함하는 이미지(들)을 디캡슐레이션한다.

비디오 디코딩부(Video Decoding)는 지오메트리 비디오 디컴프레션, 어트리뷰트 비디오 디컴프레션, 어큐판시 맵 디컴프레션, Auxiliary 데이터 디컴프레션 및/또는 Mesh데이터 디컴프레션을 수행한다. 비디오 디코딩부는 실시예들에 따른 포인트 클라우드 전송 장치의 비디오 인코딩부가 수행한 프로세스에 대응하여 지오메트리 비디오, 어트리뷰트 비디오, Auxiliary데이터 및/또는 Mesh데이터를 디코딩한다.

이미지 디코딩부(Image Decoding)는 지오메트리 이미지 디컴프레션, 어트리뷰트 이미지 디컴프레션, 어큐판시 맵 디컴프레션, Auxiliary 데이터 디컴프레션 및/또는 Mesh데이터 디컴프레션을 수행한다. 이미지 디코딩부는 실시예들에 따른 포인트 클라우드 전송 장치의 이미지 인코딩부가 수행한 프로세스에 대응하여 지오메트리 이미지, 어트리뷰트 이미지, Auxiliary데이터 및/또는 Mesh데이터를 디코딩한다.

비디오 디코딩부 및/또는 이미지 디코딩부는 비디오 데이터 및/또는 이미지 데이터에 관련된 메타데이터를 생성할 수 있다.

포인트 클라우드 프로세싱부(Point Cloud Processing)은 지오메트리 리컨스트럭션(Geometry Reconstruction) 및/또는 어트리뷰트 리컨스트럭션(Attribute Reconstruction)을 수행한다.

지오메트리 리컨스턱션은 디코딩된 비디오 데이터 및/또는 디코딩된 이미지 데이터로부터 어큐판시 맵, Auxiliary 데이터 및/또는 Mesh데이터에 기반하여 지오메트리 비디오 및/또는 지오메트리 이미지를 복원한다.

어트리뷰트 리컨스럭션은 디코딩된 어트리뷰트 비디오 및/또는 디코딩된 어트리뷰트 이미지로부터 어큐판시 맵, Auxiliary 데이터 및/또는 Mesh데이터에 기반하여 어트리뷰트 비디오 및/또는 어트리뷰트 이미지를 복원한다. 실시예들에 따라, 예를 들어, 어트리뷰트는 텍스쳐일 수 있다. 실시예들에 따라 어트리뷰트는 복수 개의 속성 정보를 의미할 수 있다. 복수개의 어트리뷰트가 있는 경우, 실시예들에 따른 포인트 클라우드 프로세싱부는 복수개의 어트리뷰트 리컨스럭션을 수행한다.

포인트 클라우드 프로세싱부는 비디오 디코딩부, 이미지 디코딩부 및/또는 파일/세그먼트 디캡슐레이션부로부터 메타데이터를 수신하고, 메타데이터게 기반하여 포인트 클라우드를 처리할 수 있다.

포인트 클라우드 렌더링부(Point Cloud Rendering)는 리컨스럭션된 포인트 클라우드를 렌더링한다. 포인트 클라우드 렌더링부는 비디오 디코딩부, 이미지 디코딩부 및/또는 파일/세그먼트 디캡슐레이션부로부터 메타데이터를 수신하고, 메타데이터게 기반하여 포인트 클라우드를 렌더링할 수 있다.

디스플레이는 랜더링된 결과를 실제 디스플레이 장치 상에 디스플레이한다.

실시예들에 따른 패치 제너레이션(patch generation) : 패치 제너레이션은 포인트 클라우드 데이터를 포함하는 프레임을 수신하여 패치(patch)를 생성한다. patch는 PCC frame을 2D plane에 mapping할때, 함께 mapping을 수행하는 point들의 집합일 수 있다. PCC frame으로 부터 patch를 생성하는 과정은 다음의 단계로 이루어 질 수 있다: PCC를 구성하는 각 포인트의 normal vector를 계산하는 단계, 도27을 참조하여 6개의 bounding box plane에 projection된 이미지인 cluster를 생성하고, normal vector와 인접 cluster를 이용하여 cluster를 재구성하는 단계, Cluster로부터 인접한 점들을 extraction 해여 patch를 생성하는 단계를 포함한다.

실시예들에 따른 패치 제너레이션은 3차원 오브젝트를 3차원의 6개 플렌이 바운딩할 수 있고, 각 플렌에 오브젝트를 프로젝션할 수 있다. 실시예들에 따라 포인트(점) 하나는 하나의 프로젝션 플렌에 투영될 수 있다. 실시예들은 포인트를 어느 플렌에 투영할지 결정할 수 있다. 서페이스에 대한 벡터, 플레인의 오리엔테이션 벡터 등의 벡터에 기반하여, 해당 포인트의 해당 프로젝션 플렌을 결정할 수 있다.

실시예들에 따른 패치 패킹 관련하여, 앞서 투영된 결과가 패치이고 패치를 2D에 프로젝션할 수 있다. 패치 패킹 과정에서 오큐판시 맵이 생성된다. 이후, 실시예들은 위치에 해당하는 데이터를 부여하는 과정이 수행한다.

실시예들에 따른 패치 제너레이션은 패치 제너레이션 관련된 메타데이터 또는 시그널링 정보를 포함하는 패치 인포메이션을 생성할 수 있다. 실시예들에 따른 패치 제너레이션은 패치 인포메이션을 지오메트리 이미지 제너레이션, 패치 패킹, 텍스쳐 이미지 제너레이션, 스무딩 및/또는 오실러리 패치 인포메이션 컴프레션에 전달할 수 있다.

실시예들에 따른 오큐판시 맵은 비디오 코딩 방식에 기반하여 인코딩될 수 있다.

실시예들에 따른 스무딩은 인코딩 프로세스로 인한 패치 간 아티팩트들로 인하여 화질열화(예를 들어 패치 간 이격)가 있을 수 있는 문제를 해결하기 위해서(코딩 효율을 높이기 위해서), 이격을 스무딩할 수 있다. 스무딩된 결과에 텍스쳐, 컬러를 부여하여 다시 포인트 클라우드 데이터를 복원할 수 있다.

도27을 참조하여, 생성된 patch의 데이터는 개별 patch에 해당하는 occupancy map, geometry image, texture image 등으로 구성될 수 있다. Occupancy map은 patch를 구성하는 포인트에 데이터가 존재하는지 여부를 나타내는 이진 (binary) map일 수 있다. Geometry image는 3D 공간상에서 PCC를 구성하는 포인트들의 위치를 식별하기 위해 사용될 수 있으며 depth map 등 1채널 값으로 표현될 수 있으며, 복수 layer로 구성될 수도 있다. 일례로 PCC 내 특정 점을 가장 낮은 깊이값으로 설정하여 Near layer (D0)를 획득하고, 동일 점을 가장 높은 깊이값으로 설정하여 far layer (D1)을 획득할 수 있다. Texture image는 각 포인트에 해당하는 color값을 나타내며, RGB, YUV 등 다채널 값으로 표현될 수 있다.

실시예들에 따른 패치 패킹(patch packding): 도28을 참조하여, 설명하면 다음과 같다. 전체 2D image에서 각 patch들의 위치를 결정하는 과정일 수 있다. 결정된 patch의 위치는 occupancy map, geometry image, texture image에 동일하게 적용되므로 이들 중 한가지를 packing 과정에 사용할 수 있다. Occupancy map을 이용하여 patch들의 위치를 결정하는 과정은 다음과 같을 수 있다

Occupancy map (occupancySizeU * occupancySizeV)를 생성하고 모든 pixel 값을 false(=0)으로 설정한다.

Patch를 2D image의 좌상단을 occupancy map 내의 임의의 점인 (u,v) 에 위치시킨다. ( 0 <= u < occupancySizeU - patch.sizeU0, 0 <= v < occupancySizeV - patch.sizeV0)

Patch 내 임의의 점인 (x, y)에 대하여, patch generation 과정에서 얻어진 patch occupancy map의 해당 포인트 값을 확인한다. 또한 전체 occupancy map의 해당 포인트 값을 확인한다. (0 <= x< patch.sizeU0, 0 <= y < patch.sizeV0)

특정 (x, y) 에 대하여, 두 값이 모두 1(=true)일 경우, patch 좌상단 위치를 변경시켜 3의 과정을 반복한다. 그렇지 않을 경우, (u, v)를 해당 patch의 위치로 결정한다.

실시예들에 따른 패치 패킹은 패치 패킹 관련된 메타데이터 또는 시그널링 정보를 포함하는 어큐판시 맵을 생성할 수 있다. 실시예들에 따른 패치 패킹은 어큐판시 맵을 지오메트리 이미지 제너레이션, 텍스쳐 이미지 제너레이션, 이미지 패딩 및/또는 어큐판시 맵 컴프레션에 전달할 수 있다.

실시예들에 따른 지오메트리 이미지 제너레이션(geometry image generation)은 포인트 클라우드 데이터를 포함하는 프레임, 패치 인포메이션 및/또는 어큐판시 맵에 기반하여 지오메트리 이미지를 생성한다. 지오메트리 이미지 제너레이션은 결정된 patch 위치 및 개별 patch의 geometry를 기반으로 전체 geometry 에 데이터 (i.e. depth value)를 채우는 과정일 수 있다. 복수 layer (e.g. near[d0] / far[d1] layer)의 geometry image들이 생성될 수 있다.

실시예들에 따른 텍스쳐 이미지 제너레이션(texture image generation)은 포인트 클라우드 데이터를 포함하는 프레임, 패치 인포메이션, 어큐판시 맵 및/또는 스무딩된 지오메트리에 기반하여 텍스쳐 이미지를 생성한다. 텍스쳐 이미지 제너레이션은 결정된 patch 위치 및 개별 patch의 geometry를 기반으로 전체 geometry 에 데이터 (i.e. color value)를 채우는 과정일 수 있다.

실시예들에 따른 스무딩(smoting)은 잠재적인 불연속성을 완화하는 과정이다. 컴프레션 결과로 인하여 패치 바운더리 상에서 불연속이 발생할 수 있다. 실시예들에 따른 스무딩은 불연속을 감소시킨다. 스무딩은 바운더리 포인트들을 포인트 상의 최근겁 이웃들(nearest neighbors)의 중심으로 이동시킬 수 있다(The smoothing procedure can aim at alleviating potential discontinuities that may arise at the patch boundaries due to compression artifacts. The implemented approach moves boundary points to the centroid of their nearest neighbors).

실시예들에 따른 어큐판시 맵 컴프레션(occupancy map compression)(or generation)은 패치 패킹 결과에 따른 어큐판시 맵을 생성하고, 어큐판시 맵을 컴프레션한다. 어큐판시 맵 프로세싱은 결정된 patch 위치 및 개별 patch의 occupancy map을 기반으로 전체 occupancy map에 데이터 (i.e. 0 or 1)를 채우는 과정일 수 있다. 앞서 설명한 patch packing과정의 일부로 여겨질 수도 있다. 실시예들에 따른 어큐판시 맵 컴프레션은 arithmetic coding 등을 사용하여 생성된 occupancy map을 압축하는 과정일 수 있다.

실시예들에 따른 오실러리 패치 인포메이션 컴프레션(auxiliary patch information compression)은 패치 제너레이션에 따른 패치 인포메이션에 기반하여 부가적 패치 정보를 컴프레션한다. 개별 patch의 부가 정보들을 부호화 하는 과정으로, projection plane의 index, 2D bounding box, patch의 3D location 등에 해당하는 정보를 포함할 수 있다.

실시예들에 따른 이미지 패딩(image padding)은 지오메트리 이미지(geometry image) 및/또는 텍스쳐 이미지(texture image)를 패딩한다. 이미지 패딩은 video compression에 적합하도록, patch들 사이에 데이터가 채워지지 않은 빈영역의 데이터를 채워넣는다. 실시예들에 따른 패딩 데이터는 인접영역 픽셀값, 인접영역 픽셀값들의 평균값 등이 사용될 수 있다.

실시예들에 따른 비디오 컴프레션(video compression)은 codec (e.g. HEVC, AVC)을 사용하여 생성된 geometry image와 texture image를 부호화한다. 실시예들에 따른 부호화된 지오메트리 이미지(또는 Reconstructed geometry image)는 스무딩에 의해 스무딩될 수 있다.

실시예들에 따른 인코더 또는 포인트 클라우드 데이터 송신 장치는 오큐판시 맵 및/또는 오실러리 패치 인포메이션에 기반하여 실시예들에 따른 디코더 또는 포인트 클라우드 데이터 수신 장치가 3차원 상의 포인트 위치, 2차원 상의 포인트 위치를 알 수 있게 시그널링할 수 있다.

실시예들에 따른 멀티플렉서(multiplexer)는 컴프레스된 지오메트리 이미지(compressed geometry image), 컴프레스된 텍스쳐 이미지(compressed texture image), 컴프레스된 어큐판시 맵(compressed occupancy map), 컴프레스된 패치 인포메이션(compressed patch info) 등 하나의 PCC 영상을 구성하는 데이터들을 다중화하여 하나의 bitstream을 생성한다. 실시예들에 따라서, 하나의 GOP (Group of Pictures)에 해당되는 compressed geometry image, compressed texture image, compressed occupancy map, compressed patch info 데이터의 셋을 GOF (Group of Frames)라 명명할 수 있다. 생성된 bitstream은 NAL unit stream, ISO BMFF file, DASH segment, MMT MPU 등의 형태일 수 있다. 생성된 bitstream에는 PCC GOF의 coding 특성을 나타내는 GOF header 데이터가 포함될 수 있다. 실시예들에 따른 인코딩 과정의 각 과정은 하드웨어, 소프트웨어 및/또는 프로세서의 조합 등의 동작으로 해석될 수 있다.

본 문서에서 실시예들에 따른 포인트 클라우드 데이터 전송 장치는 인코더, 송신기, 송신 장치 등으로 다양하게 호칭될 수 있다.

실시예들에 따른 포인트 클라우드 데이터 전송 장치는 본 문서에서 설명하는 실시예들에 기반하여 포인트 클라우드 데이터를 효율적으로 코딩할 수 있는 효과를 제공하고, 실시예들에 따른 포인트 클라우드 데이터 수신 장치가 포인트 클라우드 데이터를 효율적으로 디코딩/복원할 수 있는 효과를 제공한다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 단계; 포인트 클라우드 데이터의 속성에 관련된 텍스쳐 이미지를 생성하는 단계; 포인트 클라우드 데이터의 패치에 관련된 어큐판시 맵을 생성하는 단계; 및/또는 지오메트리 이미지, 텍스쳐 이미지 및 어큐판시 맵을 멀티플렉싱하는 단계; 를 포함할 수 있다. 실시예들에 따라, 지오메트리 이미지는 지오메트리 정보, 지오메트리 데이터, 텍스쳐 이미지는 텍스쳐 정보, 텍스쳐 데이터, 속성 정보, 속성 데이터, 어큐판시 맵은 어큐판시 정보 등으로 용어가 의미하는 범위 내에서 명칭은 변경이 가능하다.

도46은 실시예들에 따른 디코딩 프로세스를 나타낸다.

실시예들에 따른 디멀티플렉서(de-multiplexer)는 하나의 PCC bitstream (e.g. NAL unit stream, ISO BMFF file, DASH segment, MMT MPU)으로부터 compressed geometry image, compressed texture image, compressed occupancy map, compressed patch info 등 하나의 PCC 영상을 구성하는 개별 데이터들을 역다중화하여 추출한다. PCC GOF의 coding 특성을 나타내는 GOF header 데이터의 해석 과정을 포함할 수도 있다.

실시예들에 따른 비디오 디컴프레션(video decompression)은 추출된 compressed geometry image와 compressed texture image를 codec (e.g. HEVC, AVC)을 사용하여 복호화한다.

실시예들에 따른 어큐판시 맵 디컴프레션(accupancy map decompression)은 추출된 compressed occupancy map을 arithmetic coding 등을 사용하여 복호화한다.

실시예들에 따른 어실러리 패치 인포메이션 디컴프레션(auxiliary patch information decompression)은 추출된 compressed auxiliary patch information을 복호화하여 개별 patch의 부가 정보들을 해석하는 과정으로, 이러한 정보에는 projection plane의 index, 2D bounding box, patch의 3D location 등이 포함될 수 있다.

실시예들에 따른 지오메트리 리컨스럭션(geometry reconstruction)은decompressed geometry image, decompressed occupancy map, decompressed auxiliary patch information 등을 이용하여 3차원 공간상에 PCC를 구성하는 점들의 위치를 계산해 내는 과정일 수 있다. 계산된 점들의 위치는 해당 점의 3차원 위치와 (e.g. x,y,z) 데이터의 존재 유무 (0 or 1) 형태로 표현될 수 있다.

실시예들에 따른 스무딩(smoothing)은 잠재적인 불연속성을 완화하는 과정이다. 컴프레션 결과로 인하여 패치 바운더리 상에서 불연속이 발생할 수 있다. 실시예들에 따른 스무딩은 불연속을 감소시킨다. 스무딩은 바운더리 포인트들을 포인트 상의 최근겁 이웃들(nearest neighbors)의 중심으로 이동시킬 수 있다. 스무딩은 디코딩 과정에서 발생할 수 있는 불연속을 감소시킨다.

실시예들에 따른 텍스쳐 리컨스트럭션(texture reconstruction)은geometry reconstruction 과정에서 계산된 점들의 위치와decompressed texture image을 이용하여 해당 점에 컬러값을 부여하는 과정일 수 있다.

실시예들에 따른 디코딩 과정은 실시예들에 따른 인코딩 과정의 역과정일 수 있다.

본 문서에서 실시예들에 따른 포인트 클라우드 데이터 수신 장치는 디코더, 수신기, 수신 장치 등으로 다양하게 호칭될 수 있다.

실시예들에 따른 멀티플렉싱은 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및/또는 오실러리 패치 인포메이션을 멀티플렉싱한다. 실시예들에 따른 지오메트리 이미지는 NALU 스트림일 수 있다. 실시예들에 따른 텍스쳐 이미지는 NALU 스트림일 수 있다. 실시예들에 따라 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및/또는 오실러리 패치 인포메이션은 파일의 형태로 인캡슐레이션된다.

본 문서의 실시예들은 포인트 클라우드 데이터, 특히 V-PCC 방식에 기반한, 예를 들어, 네 가지 데이터(지오메트리, 텍스쳐, 어큐판시 맵, 오실러리 맵 정보)를 어떻게 코덱해서 전송하고 수신할지 방법에 관한 것이다.

실시예들에 따른 딜리버리는 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및/또는 오실러리 패치 인포메이션이 멀티플렉싱된 PCC 비트스트림을 전송한다. 실시예들에 따라 딜리버리의 형태는 ISOBMFF 파일의 형태를 포함할 수 있다.

실시예들에 따른 디멀티플렉싱은 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및/또는 오실러리 패치 인포메이션을 디멀티플렉싱한다. 실시예들에 따른 지오메트리 이미지는 NALU 스트림일 수 있다. 실시예들에 따른 텍스쳐 이미지는 NALU 스트림일 수 있다. 실시예들에 따라 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및/또는 오실러리 패치 인포메이션은 파일의 형태로 디인캡슐레이션된다.

실시예들에 따른 멀티플렉싱/디멀티플렉싱의 형태는 다음과 같다.

실시예들에 따른 ISO BMFF 파일은 멀티플 PCC 트랙들(multiple PCC tracks)을 가질 수 있다. 실시예들에 따른 PCC 트랙들의 개별적인 트랙은 다음의 정보를 포함할 수 있다.

실시예들에 따른 멀티플 트랙은 다음과 같이, 예를 들어 4개의 트랙으로 구성될 수 있다.

실시예들에 따른 Geometry / Texture image관련 트랙으로, restricted scheme type 정의 및/또는 Video sample entry의 추가 박스(box)를 포함한다.

실시예들에 따른 restricted scheme type은 scheme type박스를 추가로 정의하여, 송신/수신하는 데이터가 포인트 클라우드를 위한 지오메트리 및/또는 텍스쳐 이미지(비디오)라는 정보를 나타낼 수 있다.

실시예들에 따른 Video sample entry의 추가 박스는 포인트 클라우드를 해석하기 위한 메타데이터를 포함할 수 있다. 실시예들에 따른 Video sample entry는 PCC 관련 메타데이터를 포함하는 PCC 하위 박스를 포함할 수 있다. 예를 들어, 지오메트리, 텍스쳐, 오큐판시 맵, 오실러리 패치 메타데이터 등이 식별될 수 있다.

실시예들에 따른 Geometry / Texture image은 두 개의 레이어로 구성될 수 있다(예를 들어, D0, D1, T0, T1). 실시예들에 따라 서페이스 상의 포인트들이 중복될 때 효율성을 위해서 최소한의 두 개의 레이어에 기반하여 Geometry / Texture image 를 구성할 수 있다.

실시예들에 따른 Occupancy map / Auxiliary patch information 관련 트랙으로, timed metadata track 정의, 예를 들어 sample entry, sample format 정의를 포함한다. 또한, 오큐판시, 패치의 위치에 관한 정보가 트랙 내에 포함될 수 있다.

실시예들에 따른 PCC track grouping 관련 트랙으로, geometry/texture/occupancy map /auxiliary patch information track들 grouping 이 있을 수 있고, PCC GOF header 정보 포함한다.

실시예들에 따른 PCC track referencing 관련 트랙으로, geometry D0, D1 사이의 track reference (differential method 사용시) 정보를 포함한다.

실시예들에 따른 ISO BMFF 파일은 싱글 PCC 트랙(a single PCC track)을 가질 수 있다.

실시예들에 따른 싱글 트랙은 다음의 정보를 포함할 수 있다.

실시예들에 따른 PCC GOF header 정보와 관련하여, restricted scheme type 정의 및/또는 Video sample entry의 추가 box를 포함한다.

실시예들에 따른Geometry / Texture image 관련하여, 서브 샘플(Sub-sample) 및 샘플 그룹핑(Sample grouping)을 포함할 수 있다. Sub-sample은 개별 image를 sub-sample로 구성한 것이고, 시그널링 (예를 들어, D0 or D1 or texture)이 가능하다. Sample grouping은 개별 image를 sample로 구성한 것이고, interleaving 후 sample grouping을 이용해 구분할 수 있다.

실시예들에 따라 싱글 트랙의 샘플에 여러 개 정보가 들어갈 수 있기 때문에 서브-샘플(분류를 하는 것)이 필요할 수 있고, 샘플 그룹핑은 샘플을 시퀀셜하게 구별할 수 있는 효과가 있다.

실시예들에 따른Occupancy map / Auxiliary patch information 관련하여, 샘플 오실러리 인포메이션(Sample auxiliary information), 샘플 그룹핑(Sample grouping) 및/또는 서브-샘플(Sub-sample)을 포함한다. Sample auxiliary information ('saiz', 'szio' box)은 개별 metadata를 sample auxiliary information으로 구성할 수 있고, 시그널링이 될 수 있다. Sample grouping은 상술한 바와 동일/유사할 수 있다. Sub-sample은 개별 메타데이터를 sub-sample로 구성한 것이고, 시그널링될 수 있다.

실시예들에 따라 파일을 하나의 트랙에 멀티플렉싱하여 전송할 수 있고, 파일을 여러 개의 트랙에 멀티플렉싱하여 전송할 수 있다. 또한, 시그널링 정보를 통해 비디오 데이터, 예를 들어 지오메트리/텍스쳐 이미지를 구별할 수 있고, 메타데이터, 예를 들어 어큐판시 맵/오실러리 패치 정보 등을 구별할 수 있다.

실시예들에 따른PCC track을 위한 SchemeType은 다음과 같다.

PCC frame이 복호화될 경우, 복호화된 PCC frame은 하나 또는 두 layer의 geometry image, texture image, occupancy map, auxiliary patch information 등의 데이터를 포함할 수 있다. PCC video track은 이들 데이터들 중 하나 혹은 여러가지를 포함할 수 있으며, 이 데이터들을 기반으로 post processing하여 point cloud를 재구성할 수 있다. 이와 같이 PCC 데이터를 포함하는 track은 예를 들어, SchemeTypeBox에 존재하는 scheme_type의 'pccv' 값을 통해 식별될 수 있다.

실시예들에 따른 SchemeType의 박스는 다음과 같이 표현될 수 있다.

aligned(8) class SchemeTypeBox extends FullBox('schm', 0, flags) {

unsigned int(32) scheme_type;

unsigned int(32) scheme_version;

if (flags & 0x000001) {

unsigned int(8) scheme_uri[];

}

실시예들에 따른 SchemeType는 포인트 클라우드 데이터를 전달하는 트랙임을 표현할 수 있다.

실시예들에 따른 SchemeType을 통해 수신기는 수신/디코딩 가능 여부를 확인할 수 있는 데이터의 타입을 알 수 있고, 호환성을 제공하는 효과가 있다.

실시예들에 따른 PCC 파일은 PCC Video Box를 포함할 수 있다. PCC 데이터를 포함하는 PCC track은 PccVideoBox를 가질 수 있다. PccVideoBox는 SchemeType이 'pccv'일 경우 SchemeInfomationBox 하위에 존재할 수 있다. 또는 SchemeType 과 무관하게 VisualSampleEntry 하위에 존재할 수도 있다. PccVideoBox는 PCC GOF header, geometry image (D0/D1), texture imgage, occupancy map, auxiliary patch information 등 PCC frame을 재구성하기 위해 필요한 데이터들이 현재 track에 존재하는지 여부를 알려주고, PCC GOF header 데이터를 직접 포함할 수도 있다.

Box Type: 'pccv'

Container: SchemeInformationBox or VisualSampleEntry

Mandatory: Yes (when the SchemeType is 'pccv')

Quantity: One

aligned(8) class PccVideoBox extends FullBox('pccv', version = 0, 0) {

unsigned int(1) pcc_gof_header_flag;

unsigned int(1) geometry_image_d0_flag;

unsigned int(1) geometry_image_d1_flag;

unsigned int(1) texture_image_flag;

unsigned int(1) occupancy_map_flag;

unsigned int(1) auxiliary_patch_info_flag;

unsigned int(2) reserved = 0;

if (pcc_header_flag == 1) {

PccHeaderBox pcc_header_box;

}

Box[] any_box; // optional

}

실시예들에 따른 pcc_gof_header_flag : 현재 track이 PCC GOF header를 포함하는지 여부를 나타낼 수 있다. 1일 경우, PccVideoBox 하위에 PccGofHeader box의 형태로 해당 데이터를 포함할 수 있다. 0 일 경우 현재 track에 PCC GOF heade가 포함되지 않는다.

실시예들에 따른 geometry_image_d0_flag : 현재 track이 near layer의 geometry image를 포함하는지 여부를 나타낼 수 있다. 1일 경우, 현재 track의 미디어 데이터 등의 형태로 near layer의 geometry image를 를 포함할 수 있다. 0일 경우, 현재 track에 near layer의 geometry image 데이터를 포함히지 않는다.

실시예들에 따른 geometry_image_d1_flag :현재 track이 far layer의 geometry image를 포함하는지 여부를 나타낼 수 있다. 1일 경우, 현재 track의 미디어 데이터 등의 형태로 far layer의 geometry image를 를 포함할 수 있다. 0일 경우, 현재 track에 far layer의 geometry image 데이터를 포함히지 않는다.

실시예들에 따른 texture_image_flag: 현재 track이 texture image를 포함하는지 여부를 나타낼 수 있다. 1일 경우, 현재 track의 미디어 데이터 등의 형태로 texture image를 를 포함할 수 있다. 0일 경우, 현재 track에 texture image 데이터를 포함히지 않는다.

실시예들에 따른 occupancy_map_flag: 현재 track이 occupancy map을 포함하는지 여부를 나타낼 수 있다. 1일 경우, 현재 track에 occupancy map 데이터를 포함한다. 0일 경우, 현재 track에 occupancy map 데이터를 포함히지 않는다.

실시예들에 따른 auxiliary_patch_info_flag : 현재 track이 auxiliary patch information을 포함하는지 여부를 나타낼 수 있다. 1일 경우, 현재 track에 auxiliary patch information 데이터를 포함한다. 0일 경우, 현재 track에 auxiliary patch information 데이터를 포함히지 않는다.

상술한 바와 같이 PCC GOF HEADER를 포함하는 경우, 실시예들에 따른 박스의 형태는 다음과 같다.

실시예들에 따른 PCC GOF Header Box 관련하여, PccGofHeaderBox는 PCC GoF(Group of Frames)의 코딩 특성을 나타내는 파라미터들을 포함할 수 있다.

Box Type: 'pghd'

Container: PccVideoBox

Mandatory: No

Quantity: Zero or one

aligned(8) class PccGofHeaderBox extends FullBox('pghd', version = 0, 0) {

unsigned int(8) group_of_frames_size;

unsigned int(16) frame_width;

unsigned int(16) frame_height;

unsigned int(8) occupancy_resolution;

unsigned int(8) radius_to_smoothing;

unsigned int(8) neighbor_count_smoothing;

unsigned int(8) radius2_boundary_detection;

unsigned int(8) threshold_smoothing;

unsigned int(8) lossless_geometry;

unsigned int(8) lossless_texture;

unsigned int(8) no_attributes;

unsigned int(8) lossless_geometry_444;

unsigned int(8) absolute_d1_coding;

unsigned int(8) binary_arithmetic_coding;

}

실시예들에 따른 group_of_frames_size : 프레임들의 현재 그룹 내 프레임들의 수를 나타낸다(indicates the number of frames in the current group of frames.)

실시예들에 따른 frame_width : 지오메트리 및 텍스쳐 비디오들의 픽셀들 내 프레임 너비를 나타내고, 이 값은 멀티플 어큐판시 레졸루션일 것이다.(indicates the frame width, in pixels, of the geometry and texture videos. It shall be multiple of occupancyResolution.)

실시예들에 따른 frame_height : 지오메트리 및 텍스쳐 비디오들의 픽셀들 내 프레임 높이를 나타내고, 이 값은 멀티플 어큐판시 레졸루션일 것이다(indicates the frame height, in pixels, of the geometry and texture videos. It shall be multiple of occupancyResolution.)

실시예들에 따른 occupancy_resolution : 지오메트리 및 텍스쳐 비디오들 내 패치들이 패킹된 픽셀들 내의 horizontal 레졸루션 및 vertical 레졸루션을 나타낸다. 이 값은 어큐판시 레졸루션 이븐 값일 것이다.(indicates the horizontal and vertical resolution, in pixels, at which patches are packed in the geometry and texture videos. It shall be an even value multiple of occupancyPrecision.)

실시예들에 따른 radius_to_smoothing 은 스무딩을 위한 이웃들을 감지하는 반경을 나타낸다. radius_to_smoothing의 값은 0 내지 255(포함)의 범위 내에 있을 수 있다( indicates the radius to detect neighbours for smoothing. The value of radius_to_smoothing shall be in the range of 0 to 255, inclusive.)

실시예들에 따른 neighbor_count_smoothing 은 스무딩을 위해 사용되는 이웃들의 최대 개수를 나타낸다. neighbor_count_smoothing의 값은 0 내지 255(포함)의 범위 내에 있을 수 있다( indicates the maximum number of neighours used for smoothing. The value of neighbor_count_smoothing shall be in the range of 0 to 255, inclusive.)

실시예들에 따른 radius2_boundary_detection 은 바운더리 포인트 디텍션을 위한 반경을 나타낸다. radius2_boundary_detection의 범위는 0 내지 255(포함)의 범위 내에 있을 수 있다( indicates the radius for boundary point detection. The value of radius2_boundary_detection shall be in the range of 0 to 255, inclusive.)

실시예들에 따른 threshold_smoothing 은 스무딩 트레스홀드를 나타낸다. threshold_smoothing의 값은 0 내지 255(포함)의 범위 내에 있을 수 있다( indicates the smoothing threshold. The value of threshold_smoothing shall be in the range of 0 to 255, inclusive.)

실시예들에 따른 lossless_geometry 은 로스리스 지오메트리 코딩을 나타낸다. lossless_geometry이 1일 때 포인트 클라우드 지오메트리 인포메이션이 로스리스하게 코딩됨을 나타낸다. lossless_geometry의 값이 0인 경우 포인트 클라우드 지오메트리 인포메이션이 로시 매너로 코딩됨을 나타낸다( indicates lossless geometry coding. The value of lossless_geometry equal to 1 indicates that point cloud geometry information is coded losslessly. The value of lossless_geometry equal to 0 indicates that point cloud geometry information is coded in a lossy manner.)

실시예들에 따른 lossless_texture 은 로스리스 텍스쳐 인코딩을 나타낸다. lossless_texture의 값이 1인 경우 포인트 클라우드 텍스쳐 인포메이션이 로스리스하게 코딩됨을 나타낸다. lossless_texture의 값이 0인 경우 포인트 클라우드 텍스쳐 인포메이션이 로시 매너로 코딩됨을 나타낸다( indicates lossless texture encoding. The value of lossless_texture equal to 1 indicates that point cloud texture information is coded losslessly. The value of lossless_texture equal to 0 indicates that point cloud texture information is coded in a lossy manner.)

실시예들에 따른 no_attributes 은 어트리뷰트가 지오메트리 데이터와 함께 코딩되는지 여부를 나타낸다. no_attributes의 값이 1인 경우 코딩된 포인트 클라우드 비트스트림은 어떠한 어트리뷰트 인포메이션을 포함하지 않음을 나타낸다. no_attributes의 값이 0인경우 코딩된 포인트 클라우드 비트스트림이 어트리뷰트 인포메이션을 포함함을 나타낸다( indicates whether to attributes are coded along with geometry data. The value of no_attributes equal to 1 indicates that the coded point cloud bitstream does not contain any attributes information. The value of no_attributes equal to 0 indicates that the coded point cloud bitstream contains attributes information.)

실시예들에 따른 lossless_geometry_444 은 지오메트리 프렝미들을 위한 4:2:0 또는4:4:4 video format을 사용하는지 여부를 나타낸다. lossless_geometry_444의 값이 1인 경우 지오메트리 비디오는 4:4:4 format으로 코딩됨을 나타낸다. 4:4:4 format의 값이 0인 경우 지오메트리 비디오가 4:2:0 format으로 코딩됨을 나타낸다( indicates whether to use 4:2:0 or 4:4:4 video format for geometry frames. The value of lossless_geometry_444 equal to 1 indicates that the geometry video is coded in 4:4:4 format. The value of lossless_geometry_444 equal to 0 indicates that the geometry video is coded in 4:2:0 format.)

실시예들에 따른 absolute_d1_coding 은 프로젝션 플렌에 근접한 레이어와 다른 지오메트리 레이더들이 어떻게 코딩되는지를 나타낸다. absolute_d1_coding의 값이 1인 경우 액츄얼 지오메트리 값들은 프로젝션 플렌에 가까운 레이어와 다른 지오메트리 레이어들을 위해 코딩됨을 나타낸다. absolute_d1_coding의 값이 0인 경우 프로젝션 플렌에 가까운 레이어와 다른 지오메트리 레이어들이 다르게 코딩됨을 나타낸다(indicates how the geometry layers other than the layer nearest to the projection plane are coded. absolute_d1_coding equal to 1 indicates that the actual geometry values are coded for the geometry layers other than the layer nearest to the projection plane. absolute_d1_coding equal to 0 indicates that the geometry layers other than the layer nearest to the projection plane are coded differentially. )

실시예들에 따른 bin_arithmetic_coding 은 바이너리 아리스메틱 코딩이 사용됨을 나타낸다. bin_arithmetic_coding의 값이 1인 경우 바이너리 아리스메틱 코딩이 모든 신택스 엘리먼트들을 위해 사용됨을 나타낸다. bin_arithmetic_coding의 값이 0인 경우 논-바이너리 아리스메틱 코딩이 일부 신택스 엘리먼트들을 위해 사용됨을 나타낸다( indicates whether binary arithmetic coding is used. The value of bin_arithmetic_coding equal to 1 indicates that binary arithmetic coding is used for all the syntax elements. The value of bin_arithmetic_coding equal to 0 indicates that non-binary arithmetic coding is used for some syntax elements.)

실시예들에 따른 PCC 파일은 PCC auxiliary patch information timed metadata track을 포함할 수 있다. PCC auxiliary patch information timed metadata track은 PccAuxiliaryPatchInfoSampleEntry()를 포함할 수 있다. PccAuxiliaryPatchInfoSampleEntry는 'papi' type 값으로 식별될 수 있으며, static한 PCC auxiliary patch information을 entry 내부에 포함할 수도 있다. PCC auxiliary patch information timed metadata track의 media data('mdat')의 개별 sample은 PccAuxiliaryPatchInfoSample() 과 같이 구성될 수 있으며, dynamic하게 변화하는 PCC auxiliary patch information을 sample 내부에 포함할 수 있다

class PccAuxiliaryPatchInfoSampleEntry() extends MetaDataSampleEntry ('papi') {

}

class PccAuxiliaryPatchInfoSample() {

unsigned int(32) patch_count;

unsigned int(8) occupancy_precision;

unsigned int(8) max_candidate_count;

unsigned int(2) byte_count_u0;

unsigned int(2) byte_count_v0;

unsigned int(2) byte_count_u1;

unsigned int(2) byte_count_v1;

unsigned int(2) byte_count_d1;

unsigned int(2) byte_count_delta_size_u0;

unsigned int(2) byte_count_delta_size_v0;

unsigned int(2) reserved = 0;

for(i=0; i<patch_count; i++) {

unsigned int(byte_count_u0 * 8) patch_u0;

unsigned int(byte_count_v0 * 8) patch_v0;

unsigned int(byte_count_u1 * 8) patch_u1;

unsigned int(byte_count_v1 * 8) patch_v1;

unsigned int(byte_count_d1 * 8) patch_d1;

unsigned int(byte_count_delta_size_u0 * 8) delta_size_u0;

unsigned int(byte_count_delta_size_v0 * 8) delta_size_v0;

unsigned int(2) normal_axis;

unsigned int(6) reserved = 0;

}

unsinged int(1) candidate_index_flag;

unsigned int(1) patch_index_flag;

unsigned int(3) byte_count_candidate_index;

unsigned int(3) byte_count_patch_index;

if(candidate_index_flag == 1) {

unsigned int(byte_count_candidate_index * 8) candidate_index;

}

if(patch_index_flag == 1) {

unsigned int(byte_count_candidate_index * 8) patch_index;

}

실시예들에 따른 patch_count은 지오메트리 및 텍스쳐 비디오들 내 패치들의 개수를 나타낸다. patch_count은 0보다 클 수 있다( is the number of patches in the geometry and texture videos. It shall be larger than 0.)

실시예들에 따른 occupancy_precision은 오큐판시 맵 프리시즌의 픽셀 내 수평 및 수직 해상도이다. 이 값은 오큐판시가 시그널링되는 서브-블록 사이즈에 대응된다. 오큐판시 맵의 로스리스 코딩을 달성하기 위해서 이 값은 사이즈 1로 세팅될 수 있다( is the horizontal and vertical resolution, in pixels, of the occupancy map precision. This corresponds to the sub-block size for which occupancy is signaled. To achieve lossless coding of occupancy map this should be set to size 1.)

실시예들에 따른 max_candidate_count 은 패치 캔디데이트 리스트 내 캔디데이트들의 최대 개수를 나타낸다(specifies the maximum number of candidates in the patch candidate list. )

실시예들에 따른 byte_count_u0 은 patch_u0의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_u0.)

실시예들에 따른 byte_count_v0 은 patch_v0의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_v0.)

실시예들에 따른 byte_count_u1 은 patch_u1의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_u1.)

실시예들에 따른 byte_count_v1 은 patch_v1의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_v1.)

실시예들에 따른 byte_count_d1 은 patch_d1의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_d1.)

실시예들에 따른 byte_count_delta_size_u0 은 delta_size_u0 의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of delta_size_u0.)

실시예들에 따른 byte_count_delta_size_v0 은 delta_size_v0의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of delta_size_v0.)

실시예들에 따른 patch_u0 은 patch bounding box의 size occupancy_resolution x occupancy_resolution의 탑-레프트 코너 서브블록의 X-코디네이트를 나타낸다. patch_u0의 값은 0 내지 frame_width/occupancy_resolution -1(포함)의 범위 내에 있을 수 있다(specifies the x-coordinate of the top-left corner subblock of size occupancy_resolution x occupancy_resolution of the patch bounding box. The value of patch_u0 shall be in the range of 0 to frame_width/occupancy_resolution 1, inclusive.)

실시예들에 따른 patch_v0 은 patch bounding box의 size occupancy_resolution x occupancy_resolution의 탑-레프트 코너 서브블록의 Y-코디네이트를 나타낸다. patch_v0의 값은 0 내지 frame_height/occupancy_resolution -1(포함)의 범위 내에 있을 수 있다(specifies the y-coordinate of the top-left corner subblock of size occupancy_resolution x occupancy_resolution of the patch bounding box. The value of patch_v0 shall be in the range of 0 to frame_height/occupancy_resolution 1, inclusive.)

실시예들에 따른 patch_u1 은 패치 포인트들의 3D bounding box의 미니멈 X-코디네이트를 나타낸다. patch_u1의 값은 0 내지 to frame_width-1(포함)의 범위 내에 있을 수 있다(specifies the minimum x-coordinate of the 3D bounding box of patch points.. The value of patch_u1 shall be in the range of 0 to frame_width 1, inclusive.)

실시예들에 따른 patch_v1 은 패치 포인트들의 3D bounding box의 맥시멈 X-코디네이트를 나타낸다. patch_v1의 값은 0 내지 frameHeight-1(포함)의 범위 내에 있을 수 있다(is the minimum y-coordinate of the 3D bounding box of patch points,. The value of patch_v1 shall be in the range of 0 to frameHeight 1, inclusive.)

실시예들에 따른 patch_d1 은 패치들의 미니멈 뎁스를 나타낸다(specifies the minimum depth of the patch. )

실시예들에 따른 delta_size_u0 is the difference of patch width between the current patch and the previous one.

실시예들에 따른 delta_size_v0 은 커런트 패치 및 이전 패치 간 패치 높이의 차이를 나타낸다(is the difference of patch height between the current patch and the previous one. )

실시예들에 따른 normal_axis 은 플렌 프로젝션 박스를 나타낸다. normal_axis의 값은 0 내지 2(포함)의 범위 내에 있을 수 있다. 0, 1, 2의 normalAxis 값은 X, Y, Z 프로젝션 축 각각에 대응된다(specifies the plane projection index. The value of normal_axis shall be in the range of 0 to 2, inclusive. normalAxis values of 0, 1, and 2 correspond to the X, Y, and Z projection axis, respectively.)

실시예들에 따른 candidate_index_flag 은 candidate_index이 존재하는지 아닌지 여부를 나타낸다(specifies whether candidate_index is present or not.)

실시예들에 따른 patch_index_flag 은 patch_index이 존재하는지 아닌지 여부를 나타낸다(specifies whether patch_index is present or not.)

실시예들에 따른 byte_count_candidate_index 은 candidate_index 의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of candidate_index.)

실시예들에 따른 byte_count_patch_index 은 patch_index 의 픽스-렝스 코딩을 위한 바이트들의 개수를 나타낸다(specifies the number of bytes for fixed-length coding of patch_index.)

실시예들에 따른 candidate_index 은 패치 캔디테이트 리스트에 대한 인덱스를 나타낸다. candidate_index의 값은 0 내지 max_candidate_count(포함)의 범위 내에 있을 수 있다(is the index into the patch candidate list. The value of candidate_index shall be in the range of 0 to max_candidate_count, inclusive.)

실시예들에 따른 patch_index 은 프레임 연관된 descending size order 내 저장된 패치 리스트에 대한 인덱스를 나타낸다( is an index to a sorted patch list, in descending size order, associated with a frame.)

실시예들에 따른 PCC 파일은 PCC occupancy map timed metadata track을 포함한다. PCC occupancy map timed metadata track은 PccOccupancyMapSampleEntry()를 포함할 수 있다. PccOccupancyMapSampleEntry 는 'papi' type 값으로 식별될 수 있으며, static한 PCC occupancy map 데이터를 entry 내부에 포함할 수도 있다. PCC occupancy map timed metadata track의 media data('mdat')의 개별 sample은 PccOccupancyMapSample () 과 같이 구성될 수 있으며, dynamic하게 변화하는 PCC occupancy map 데이터를 sample 내부에 포함할 수 있다.

class PccOccupancyMapSampleEntry() extends MetaDataSampleEntry ('popm') {

}

class PccOccupancyMapSample() {

unsigned int(32) block_count;

for( i = 0; i < block_count; i++ ) {

unsigned int(1) empty_block_frag;

unsigned int(7) reserved = 0;

if(empty_block_frag == 1) {

unsigned int(1) is_full;

unsigned int(7) reserved = 0;

if(is_full == 0) {

unsinged int(2) best_traversal_order_index;

unsigned int(6) reserved = 0;

unsinged int(16) run_count_prefix;

if (run_count_prefix > 0) {

unsigned int(16) run_count_suffix;

}

unsigned int(1) occupancy;

unsigned int(7) reserved = 0;

for( j = 0; j <= runCountMinusTwo+1; j++ ) {

unsigned int(16) run_length_idx;

}

실시예들에 따른 block_count 은 오큐판시 블록들의 개수를 나타낸다(specifies the number of occupancy blocks.)

실시예들에 따른 empty_block_flag 은 ze occupancy_resolution × occupancy_resolution block의 커런트 오큐판시 블록이 비어있는지 아닌지 여부를 나타낸다. empty_block_flag이 0인 경우 커런트 오큐판시 블록이 비어있음을 나타낸다(specifies whether the current occupancy block of size occupancy_resolution × occupancy_resolution block is empty or not. empty_block_flag equal to 0 specifies that the current occupancy block is empty.)

실시예들에 따른 is_full 은 size occupancy_resolution × occupancy_resolution block의 커런트 오큐판시 블록이 풀인지 여부를 나타낸다. is_full이1인 경우 커런트 블록이 풀임을 나타낸다. is_full이 0인 경우 커런트 오큐판시 블록이 풀이 아님을 나타낸다(specifies whether the current occupancy block of size occupancy_resolution × occupancy_resolution block is full. is_full equal to 1 specifies that the curret block is full. is_full equal to 0 specifies that the current occupancy block is not full. )

실시예들에 따른 best_traversal_order_index 은 current occupancy_resolution × occupancy_resolution block 내 size occupancy_precision × occupancy_precision의 서브-블록들을 위한 스캔 오더를 나타낸다. best_traversal_order_index의 값은 0 내지 4(포함)의 범위 내에 있을 수 있다(specifies the scan order for sub-blocks of size occupancy_precision × occupancy_precision in the current occupancy_resolution × occupancy_resolution block. The value of best_traversal_order_index shall be in the range of 0 to 4, inclusive.)

실시예들에 따른 run_count_prefix 은 runCountMinusTwo변수의 데리베이션 내 사용될 수 있다(is used in the derivation of variable runCountMinusTwo.)

실시예들에 따른 run_count_suffix 은 runCountMinusTwo 변수의 데리베이션 내 사용될 수 있다. 존재하지 않는 경우, run_count_suffix의 값은 0일 수 있다(is used in the derivation of variable runCountMinusTwo. When not present, the value of run_count_suffix is inferred to be equal to 0.)

파티큘러 블록을 위한 blockToPatch의 값이 제로와 같이 않은 경우, 블록은 풀이 아닐 수 있다. unCountMinusTwo 플러스 2는 블록을 위한 시그널된 런들의 개수를 나타낸다. runCountMinusTwo의 값은 0 내지 (occupancy_resolution * occupancy_resolution)-1(포함)의 범위 내에 있을 수 있다(When the value of blockToPatch for a particular block is no equal to zero and the block is not full, runCountMinusTwo plus 2 represents the number of signalled runs for a block. The value of runCountMinusTwo shall be in the range of 0 to (occupancy_resolution * occupancy_resolution) 1, inclusive.)

실시예들에 따른 runCountMinusTwo 는 다음과 같이 표현될 수 있다:

runCountMinusTwo = (1 << run_count_prefix) - 1 + run_count_suffix

오큐판시는 제 1 서브블록(of occupancyPrecision × occupancyPrecision pixels)을 위한 오큐판시 값을 나타낸다. 오큐판시가 0인 경우 제 1 서브블록이 비어 있음을 나타낸다. 오큐판시가 1인 경우 제1 서브블록이 차지되어 있음을 나타낸다(occupancy specifies the occupancy value for the first sub-block (of occupancyPrecision × occupancyPrecision pixels). occupancy equal to 0 specifies that the first sub-block is empty. occupancy equal to 1 specifies that the first sub-block is occupied. )

실시예들에 따른 run_length_idx 는 런 렝스를 나타낸다. runLengthIdx의 값은 0내지14(포함)의 범위 내에 있을 수 있다(is indication of the run length. The value of runLengthIdx shall be in the range of 0 to 14, inclusive.)

실시예들에 따른 멀티플렉싱은 파일로 네 가지 데이터를 멀티플렉싱한다. 실시예들에 따른 파일 관련하여, 복수의 비트스트림의 각 비트스트림을 멀티플 트랙이 포함할 수 있고, 복수의 비트스트림을 싱글 트랙이 포함할 수 있다. 실시예들에 따른 멀티플/싱글 트랙은 후술한다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 멀티플렉싱은 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및 어실러리 패치 정보를 파일 타입 또는 NALU타입으로 멀티플렉싱할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 멀티플렉싱은 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및 어실러리 패치 정보를 파일 타입으로 멀티플렉싱하고, 여기서 타입은 멀티플 트랙들을 포함할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 멀티플 트랙들은 지오메트리 이미지를 포함하는 제1트랙, 텍스쳐 이미지를 포함하는 제2트랙, 어큐판시 맵 및 어실러리 패치 정보를 포함하는 제3트랙을 포함할 수 있다. 실시예들에 따라, 제1, 제2 표현은 구분 및/또는 명명하기 위해서 사용된 표현으로 해석된다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 제1트랙, 제2트랙 및 제3트랙은 비디오 그룹 박스를 포함하고, 비디오 그룹 박스는 헤더 박스를 포함하고, 헤더 박스는 포인트 클라우드 관련 데이터를 포함하는지 여부를 나타낼 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 멀티플렉싱은 지오메트리 이미지, 텍스쳐 이미지 및 어큐판시 맵을 파일로 멀티플렉싱할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 파일은 멀티플 트랙(multiple PCC tracks)들을 포함할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 멀티플 트랙들은 지오메트리 이미지를 포함하는 제1트랙, 텍스쳐 이미지를 포함하는 제2트랙, 어큐판시 맵을 포함하는 제3트랙을 포함할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법의 파일은 그룹 박스를 포함하고, 그룹 박스는 제1트랙, 제2트랙 또는 제3트랙 중 적어도 하나를 나타내는 정보를 포함할 수 있다.

예를 들어, 실시예들은 4by4 블록 상에 픽셀의 유무를 파악하는 코딩 방식을 사용할 수 있다. 구체적으로, 실시예들은 픽셀을 스캔하여 1의 개수, 0의 개수를 파악하기 위해서 지그재그 스캔 방식을 사용할 수 있다. 나아가, 실시예들은 특정 방향에 기반하여 런의 숫자를 감소 시키는 스캔 방식을 사용할 수 있다. 이러한 방법은 런 방식 코딩의 효율을 증가시킬 수 있다. 도면의 테이블은 run length 인덱스에 따른 run length를 나타낸다.

실시예들에 따른 PCC track grouping 관련 트랙/파일은 다음 정보를 포함한다. PCC를 구성하는 데이터를 포함하는 geometry image D0/D1 track들, texture image track, occupancy map/auxiliary patch information track들은 다음의 PccVideoGroupBox를 포함할 수 있으며, 하나의 PCC 콘텐트를 위해 필요한 track들임을 나타낼 수 있다. PccTrackGroupBox는 앞서 설명한 PccHeaderBox를 포함할 수도 있다. 하나의 PCC track group에 속한 track들은 동일한 track_group_type (='pctg') 및 동일한 track_group_id 값을 갖는 PccTrackGroupBox를 포함한다. 동일한 PCC track group내에는 geometry image D0/D1 track들, texture image track, occupancy map/auxiliary patch information track이 종류별로 각각 하나씩만 존재해야 한다는 제약사항을 둘 수도 있다. 실시예들에 따른 PCC track grouping은 멀티플 PCC 트랙들(multiple PCC tracks)을 통해서 전달될 수 있다.

class PccTrackGroupBox() extends TrackGroupTypeBox ('pctg') {

PccHeaderBox pcc_header_box; // optional

}

하나의 파일 내 PCC 데이터 외 다른 데이터, 예를 들어 2D데이터 등이 있는 경우, 상술한 실시예들을 사용하여 디코더가 효율적으로 PCC 데이터를 식별할 수 있는 효과가 있다. 실시예들에 따른 디멀티플렉서는 멀티플 PCC 트랙들 상 PCC track grouping에 기반하여 pcc_header_box를 획득하면, 디코더가 필요한 PCC 데이터를 latency 및 디코더 복잡도 없이 효울적으로 디코딩할 수 있다.

실시예들에 따른 PCC track grouping로 인하여, 수신기의 file parser (demultiplexer) 는 본 정보를 이용하여 PCC content 재생에 필요한 데이터들을 빠르게 필터링 할 수 있다. 일례로 하나의 파일에 PCC를위한 geometry, image, occupancy map, aux. patch info. 4개의 track과 2D 비디오 track 등 PCC 이외의 content들이 동시에 존재할 경우 본 정보를 이용하여 PCC　content 재생에 필요한 4개의 track만을 빠르게 필터링할 수 있다. 또한 수신기는 본 정보를 이용하여 필터링한 track들을 처리하기 위해　필요한 resource를 계산하여 PCC content 재생을 위한 최소의 resouce (memory, decoder instance 등)만을 이용하여 PCC content를 재생할 수 있게 한다.

실시예들에 따른 PCC track grouping 박스 정보를 보고, 예를 들어, track_group_type 및/또는 track_group_id에 기반하여 그룹핑된 트랙을 디코더가 식별할 수 있고, 트랙에 포함된 포인트 클라우드 데이터를 빠르게 필터링할 수 있다.

실시예들에 따른 PCC geometry track referencing 관련 트랙/파일은 다음 정보를 포함한다. PCC를 구성하는 geometry image D0 track과 geometry image D1 track이 존재하고, 두 track이 포함하는 geometry image D0, D1 layer들 간에 coding dependenc가 존재할 경우 (e.g. D0는 intra coding, D1은 D0와의 차분영상으로 coding된 경우), TrackReferenceBox를 통해 두 track들 간의 의존성이 표현될 수 있다. 이를 위해 새로운 'pgdp' (PCC geometry image dependency) referemce_type이 정의될 수 있으며, 일례로 D1 track이 'pgdp' reference_type의 TrackReferenceTypeBox를 포함하고 Track_IDs[]에 D0 track의 track_ID 값을 포함할 수 있다. 동일한 방법으로 'pgdp'를 대신하여 기존의 'sbas'와 같은 reference_type이 사용될 수도 있다. 실시예들에 따른 PCC geometry track referencing 은 멀티플 PCC 트랙들(multiple PCC tracks)을 통해서 전달될 수 있다.

aligned(8) class TrackReferenceBox extends Box('tref') {

TrackReferenceTypeBox [];

}

aligned(8) class TrackReferenceTypeBox (unsigned int(32) reference_type) extends Box(reference_type) {

unsigned int(32) track_IDs[];

}

실시예들에 따른 PCC track을 위한 SchemeType 관련 트랙/파일은 다음 정보를 포함한다. PCC frame이 복호화될 경우, 복호화된 PCC frame은 하나 또는 두 layer의 geometry image, texture image, occupancy map, auxiliary patch information 등의 데이터를 포함할 수 있다. 이들 데이터들 모두가 하나의 PCC video track에 포함될 수 있으며, 이 데이터들을 기반으로 post processing하여 point cloud를 재구성할 수 있다. 이와 같이 PCC 데이터를 모두 포함하는 track은 일례로, SchemeTypeBox에 존재하는 scheme_type의 'pccs' 값을 통해 식별될 수 있다. (앞서 설명한 PCC 데이터들이 여러 track에 나뉘어 포함되는 'pccv'와 구분을 위해 다른 scheme_type을 정의할 수 있다. ) 실시예들에 따른 PCC track을 위한 SchemeType은 싱글 PCC 트랙(single PCC track)에 의해 전달될 수 있다.

aligned(8) class SchemeTypeBox extends FullBox('schm', 0, flags) {

unsigned int(32) scheme_type;

unsigned int(32) scheme_version;

if (flags & 0x000001) {

unsigned int(8) scheme_uri[];

}

실시예들에 따른 PCC Video Box은 다음과 같은 정보를 포함한다.

PCC 데이터를 포함하는 PCC track은 PccVideoBox를 가질 수 있다. PccVideoBox는 SchemeType이 'pccv'일 경우 SchemeInfomationBox 하위에 존재할 수 있다. 또는 SchemeType 과 무관하게 VisualSampleEntry 하위에 존재할 수도 있다. PccVideoBox는, PCC GOF header 데이터를 직접 포함할 수 있다. 실시예들에 따른 PCC Video Box은 싱글 PCC 트랙(single PCC track)에 의해 전달될 수 있다.

Box Type: 'pccs'

Container: SchemeInformationBox or VisualSampleEntry

Mandatory: Yes (when the SchemeType is 'pccs')

Quantity: One

aligned(8) class PccVideoBox extends FullBox('pccs', version = 0, 0) {

PccHeaderBox pcc_header_box; // optional

Box[] any_box; // optional

}

실시예들에 따른 Sub-sample을 이용한 single track내 PCC 데이터 구분 방법 다음의 정보에 기초하여 수행될 수 있다. PCC 데이터들이 하나의 track에 존재할 경우, 해당 track의 media sample들을 여러 sub-sample로 나눌 수 있고, 각 sub-sample이 geometry image (D0/D1), texture image, occupancy map, auxiliary patch information 등의 PCC 데이터에 해당될 수 있다. 이처럼 sub-sample과 PCC 데이터의 맵핑 관계를 기술하기 위해, SubSampleInformationBox의 codec_specific_parameters를 아래와 같이 정의하여 사용할 수 있다.

aligned(8) class SubSampleInformationBox extends FullBox('subs', version, flags) {

unsigned int(32) entry_count;

for (i=0; i < entry_count; i++) {

unsigned int(32) sample_delta;

unsigned int(16) subsample_count;

if (subsample_count > 0) {

for (j=0; j < subsample_count; j++) {

if(version == 1) {

unsigned int(32) subsample_size;

}

else {

unsigned int(16) subsample_size;

}

unsigned int(8) subsample_priority;

unsigned int(8) discardable;

unsigned int(32) codec_specific_parameters;

}

unsigned int(3) pcc_data_type;

bit(29) reserved = 0;

실시예들에 따른 pcc_data_type : sub-sample에 포함된 PCC 데이터의 type을 나타낸다. 예를 들어, 0일 경우 geometry image D0, 1일 경우 geometry image D1, 2일 경우 texture image, 3일 경우 occupancy map, 4일 경우 auxiliary patch information이 sub-sample에 포함됨을 나타낼 수 있다.

실시예들에 따른 싱글 PCC 트랙은 지오메트리, 텍스쳐, 오큐판시, 오실러리 맵 각각을 포함하는 샘플을 포함할 수 있고, 하나의 샘플이 복수의 샘플들을 포함할 수 있다. 샘플을 실시예들에 따른 서브-샘플을 사용하여 구별할 수 있다. 실시예들에 따른 서브-샘플이 지오메트리, 텍스쳐 등을 포함할 수 있다.

실시예들에 따른 샘플, 샘플 그룹핑 및/또는 서브-샘플 방식은 지오메트리, 텍스쳐 비디오, 오큐판시 맵, 오실러리 패치 인포메이션 등에 적용될 수 있다.

실시예들에 따른 Sample grouping을 이용한 PCC 데이터 구분 방법은 다음의 정보에 기초하여 수행될 수 있다. PCC 데이터들이 하나의 track에 존재할 경우, 해당 track의 media sample들을 geometry image (D0/D1), texture image, occupancy map, auxiliary patch information 등의 PCC 데이터들 중 하나를 포함할 수 있다. 이처럼 sample이 여러 PCC 데이터들 중 하나임을 식별하기 위해 다음과 같은 sample group box들이 사용될 수 있다. 각각의 box들은 특정 sample들과 링크되어 해당 sample이 어느 PCC 데이터인지를 식별하는데 사용될 수 있다. 실시예들에 따른 Sample grouping은 싱글 PCC 트랙(single PCC track)에 의해 전송될 수 있다.

class PccGeometryD0ImageGroupEntry extends VisualSampleGroupEntry('pd0g') {

}

class PccGeometryD1ImageGroupEntry extends VisualSampleGroupEntry('pd1g') {

}

class PccTextureImageGroupEntry extends VisualSampleGroupEntry('pteg') {

}

class PccOccupancyMapGroupEntry extends VisualSampleGroupEntry('pomg') {

}

class PccAuxiliaryPatchInfoGroupEntry extends VisualSampleGroupEntry('papg') {

}

실시예들에 따른 비쥬얼 샘플 그룹 엔트리는 PccGeometryD0, PccGeometryD1, PccTexture, PccOccupancyMap, PccAuxiliaryPatchInfo 각각에 대한 타입 정보 알려주는 엔트리로 확장될 수 있다. 이로 인하여, 샘플이 어떤한 데이터를 전송하는지를 실시예들에 따른 디코더에 알려줄 수 있다.

이하에서는 실시예들에 따른 메타데이터를 세부적으로 분류하는 방법을 설명한다.

실시예들에 따른Sample auxiliary information을 이용한 occupancy map, auxiliary patch information, geometry image, texture image 제공 방법은 다음의 정보에 기반하여 수행될 수 있다. 실시예들에 따른Sample auxiliary information은 싱글 PCC 트랙에 의해 전달될 수 있다. PCC 데이터들이 하나의 track에 존재할 경우, 해당 track의 media sample들을 geometry image (D0/D1), texture image, occupancy map, auxiliary patch information 등의 PCC 데이터들 중 하나, 또는 앞서 제안한 sub-sample을 이용하여 하나 이상의 다른 종류의 PCC 데이터가 media sample에 포함될 수 있다. Media sample에 포함되지 않은 PCC 데이터는 sample auxiliary information으로 설정되어 해당 sample과 링크될 수 있다. Sample auxiliary information은 sample과 같은 파일 내에 저장될 수 있으며, 해당 데이터의 size와 offset을 기술하기 위해 다음의 SampleAuxiliaryInformationSizesBox와 SampleAuxiliaryInformationOffsetsBox가 각각 사용될 수 있다. Sample auxiliary information에 포함된 PCC data 식별을 위해 aux_info_type과 aux_info_type_parameter를 다음과 같이 정의할 수 있다.

실시예들에 따른aux_info_type : 'pccd' 일 경우 sample auxiliary information에 PCC 데이터를 포함함을 나타낼 수 있다.

실시예들에 따른aux_info_type_parameter : aux_info_type이 'pccd' 일 경우, 본 필드는 다음과 같이 정의될 수 있다: unsigned int(3) pcc_data_type; bit(29) reserved = 0;

실시예들에 따른pcc_data_type은 sample auxiliary information에 포함된 PCC 데이터의 type을 나타낸다. 일례로 0일 경우 occupancy map, 1일 경우 auxiliary patch information, 2일 경우 geometry image D1, 3일 경우 geometry image D0, 4일 경우 texture image가 sample auxiliary information에 포함됨을 나타낼 수 있다.

aligned(8) class SampleAuxiliaryInformationSizesBox extends FullBox('saiz', version = 0, flags)

{

if (flags & 1) {

unsigned int(32) aux_info_type;

unsigned int(32) aux_info_type_parameter;

}

unsigned int(8) default_sample_info_size;

unsigned int(32) sample_count;

if (default_sample_info_size == 0) {

unsigned int(8) sample_info_size[ sample_count ];

}

aligned(8) class SampleAuxiliaryInformationOffsetsBox extends FullBox('saio', version, flags) {

if (flags & 1) {

unsigned int(32) aux_info_type;

unsigned int(32) aux_info_type_parameter;

}

unsigned int(32) entry_count;

if ( version == 0 ) {

unsigned int(32) offset[ entry_count];

}

else {

unsigned int(64) offset[ entry_count];

}

실시예들에 따른 시그널링 정보는 명칭으로 제한해석되지 않으며, 시그널링 정보의 기능/효과 등에 기반하여 해석될 수 있다.

실시예들에 따른 멀티플렉싱은 지오메트리 이미지(NALU 스트림), 텍스쳐 이미지(NALU 스트림), 어큐판시 맵 및/또는 오실러리 패치 인포메이션을 멀티플렉싱한다. 실시예들에 따른 멀티플렉싱은 NALU 기반 인캡슐레이션할 수 있다.

실시예들에 따른 딜리버리는 멀티플렉싱된 데이터를 전송한다. 실시예들에 따른 딜리버리는 지오메트리 이미지(NALU 스트림), 텍스쳐 이미지(NALU 스트림), 어큐판시 맵 및/또는 오실러리 패치 인포메이션을 포함하는 PCC 비트스트림을 ISOBMFF 파일 기반으로 전달한다.

실시예들에 따른 디멀티플렉싱은 지오메트리 이미지(NALU 스트림), 텍스쳐 이미지(NALU 스트림), 어큐판시 맵 및/또는 오실러리 패치 인포메이션을 디멀티플렉싱한다. 실시예들에 따른 디멀티플렉싱은 NALU 기반 디캡슐레이션할 수 있다.

실시예들에 따른 NALU stream 기반 Multiplexing/Demultiplexing의 상세 동작은 이하에서 설명한다.

실시예들에 따른 Geometry / Texture image는 Nuh_layer_id를 이용한 D0, D1, texture 등을 구분할 수 있다. layer 별 PCC 시그널링하는 실시예들을 제안한다. (예를 들어, new SEI message, VPS에 정보 추가)

실시예들에 따른 Occupancy map / Auxiliary patch information 관련하여, 실시예들에 따른 SEI 메시지를 제안한다.

실시예들에 따른 PCC GOF header 관련하여, 실시예들에 따른 SEI 메시지를 제안한다.

도50은 실시예들에 따른 PCC layer information을 나타낸다.

실시예들에 따른 PCC layer information SEI message와 관련하여, PCC layer information SEI는 다음과 같이 구성될 수 있다. NAL unit stream은 nal_unit_header()의 nuh_layer_id에 의해 구분되는 다양한 layer로 구성될 수 있다. PCC 데이터들을 하나의 NAL unit stream으로 구성하기 위해 여러 종류의 PCC 데이터들을 각각 하나의 layer로 구성할 수 있다. PCC layer information SEI는 layer별 PCC 데이터 맵핑 정보를 식별해 주는 역할을 한다.

실시예들에 따른 num_layers : NAL unit stream에 포함된 layer의 개수를 의미할 수 있다.

실시예들에 따른 nuh_layer_id : 각 layer에 부여된 고유 식별자로 nal_unit_header()의 nuh_layer_id와 동일한 의미를 갖는다.

실시예들에 따른 pcc_data_type : 해당 layer에 포함된 PCC 데이터의 type을 나타낸다. 일례로 0일 경우 occupancy map, 1일 경우 auxiliary patch information, 2일 경우 geometry image D1, 3일 경우 geometry image D0, 4일 경우 texture image가 sample auxiliary information에 포함됨을 나타낼 수 있다.

이하에서 설명하는 실시예들에 따른 메타데이터는 실시예들에 따른 nuh_layer_id마다 pcc_data_type을 알려줄 수 있는 효과가 있다.

실시예들에 따른 nuh_layer_id 및 nuh_layer_id에 따른 메타데이터를 사용하여 PCC 데이터를 표현할 수 있고 효율적으로 지오메트리 및 텍스쳐를 구별할 수 있는 효과가 있다.

실시예들에 따른 PCC auxiliary patch information SEI message 관련하여, PCC auxiliary patch information SEI message는 다음과 같이 구성될 수 있다. 각 필드의 의미는 앞서 설명한 PCC auxiliary patch information timed metadata에서와 유사하다. . PCC auxiliary patch information SEI message는 VCL NAL unit을 통해 전송되는 geometry image, texture image 등에 auxiliary patch information 메타데이터를 제공하는 역할을 하며 시간의 흐름에 따라 dynamic하게 변화할 수 있다. 현재 SEI message 내용은 같은 종류의 다음 SEI message가 해석될 때 까지만 유효하게 함으로써 dynamic한 메타데이터를 적용할 수 있게 한다.

도52는 실시예들에 따른 PCC occupancy map을 나타낸다.

실시예들에 따른 PCC occupancy map SEI message 관련하여, PCC occupancy map SEI message는 다음과 같이 구성될 수 있다. 각 필드의 의미는 앞서 설명한 PCC auxiliary patch information timed metadata에서와 유사하다. PCC auxiliary patch information SEI message는 VCL NAL unit을 통해 전송되는 geometry image, texture image 등에 occupancy map 데이터를 제공하는 역할을 하며 시간의 흐름에 따라 dynamic하게 변화할 수 있다. 현재 SEI message 내용은 같은 종류의 다음 SEI message가 해석될 때 까지만 유효하게 함으로써 dynamic한 메타데이터를 적용할 수 있게 한다.

runCountMinusTwo = (1 << run_count_prefix)-1+ run_count_suffix

도53은 실시예들에 따른 PCC group of frames header를 나타낸다.

실시예들에 따른 PCC group of frames header SEI message 관련하여, PCC group of frames header SEI message는 다음과 같이 구성될 수 있다. 각 필드의 의미는 앞서 설명한 PccGofHeaderBox에서와 유사하다. PCC group of frames header SEI message 는 VCL NAL unit을 통해 전송되는 geometry image, texture image 및 SEI message로 전송되는 occupancy map, patch auxiliary information등에 occupancy map 에 header 데이터를 제공하는 역할을 하며 시간의 흐름에 따라 dynamic하게 변화할 수 있다. 현재 SEI message 내용은 같은 종류의 다음 SEI message가 해석될 때 까지만 유효하게 함으로써 dynamic한 메타데이터를 적용할 수 있게 한다.

실시예들에 따른 identified_codec은 PCC 데이터에 사용된 코덱을 나타낸다.

실시예들에 따른 frame_width 은 지오메트리 및 텍스쳐 비디오들의 픽셀들 내 프레임 너비를 나타내고, 이 값은 멀티플 어큐판시 레졸루션일 것이다.(indicates the frame width, in pixels, of the geometry and texture videos. It shall be multiple of occupancyResolution.)

실시예들에 따른 frame_height 은 지오메트리 및 텍스쳐 비디오들의 픽셀들 내 프레임 높이를 나타내고, 이 값은 멀티플 어큐판시 레졸루션일 것이다(indicates the frame height, in pixels, of the geometry and texture videos. It shall be multiple of occupancyResolution.)

실시예들에 따른 occupancy_resolution 은 지오메트리 및 텍스쳐 비디오들 내 패치들이 패킹된 픽셀들 내의 horizontal 레졸루션 및 vertical 레졸루션을 나타낸다. 이 값은 어큐판시 레졸루션 이븐 값일 것이다.(indicates the horizontal and vertical resolution, in pixels, at which patches are packed in the geometry and texture videos. It shall be an even value multiple of occupancyPrecision.)

실시예들에 따른 gof_header_extension_flag은 GOF 헤더 익스텐션이 있는지 여부를 나타낸다.

도54는 실시예들에 따른 Geometry/Texture image packing을 나타낸다.

실시예들에 따른 이미지 패킹(Image packing)은 지오메트리 및 텍스쳐 이미지를 패킹된 이미지로 패킹할 수 있다.

실시예들에 따른 이미지 패킹은 Stereo frame packing 방법과 유사할 수 있다. 예를 들어, D0, texture만 존재할 경우에 적용될 수 있다. 또한, packing type (e.g. side-by-side..) 기술이 적용될 수 있다. 또한, 실시예들에 따른 이미지 패킹은 Region-wise packing 방법과 유사할 수 있다. 예를 들어, source (D0, D1 또는 texture) 에서 destination (packed image)으로 맵핑하고, 그 관계를 메타데이터로 기술할 수 있다.

실시예들에 따른 비디오 컴프레션은 패킹된 이미지를 NALU 스트림 기반으로 컴프레션할 수 있다.

실시예들에 따른 멀티플렉싱은 컴프레스된 이미지, 컴프레스된 오큐판시 맵, 컴프레스된 오실러리 패치 인포메이션을 멀티플렉싱할 수 있다.

실시예들에 따른 딜리버리는 PCC 비트스트림을 전송할 수 있다.

실시예들에 따른 디멀티플렉싱은 PCC 비트스트림을 디멀티플렉싱하여, 컴프레스된 이미지, 컴프레스된 오큐판시 맵, 컴프레스된 오실러리 패치 인포메이션을 생성할 수 있다.

실시예들에 따른 비디오 디컴프레션은 컴프레스된 이미지를 디컴프레션하여 패킹된 이미지를 생성할 수 있다.

실시예들에 따른이미지 언패킹(unpacking)은 패킹된 이미지로부터 지오메트리 이미지 및 텍스쳐 이미지를 생성할 수 있다.

실시예들에 따른 이미지 언패킹은 Stereo frame packing 방법과 유사할 수 있다. 예를 들어, D0, texture만 존재할 경우에 적용될 수 있다. 실시예들에 따른 이미지 언패킹은 packing type (e.g. side-by-side..) 기술이 적용될 수 있다. 또한, 실시예들에 따른 이미지 언패킹은 Region-wise packing 방법과 유사할 수 있다. 예를 들어, source (D0, D1 or texture) 에서 destination (packed image)으로 맵핑하고 그 관계를 기술할 수 있다.

실시예들에 따른 이미지 패킹은 지오메트리 이미지 및/또는 텍스쳐 이미지를 하나의 이미지로 패킹하여, latency 및 디코딩 복잡도 측면에서 효율성을 제공하는 효과가 있다.

실시예들에 따른 PCC frame packing 관련하여, PCC를 구성하는 geometry image (e.g. D0 layer)와 texture image는 하나의 image frame sequence에 배치되어 하나의 layer로 구성되는 하나의 bitstream으로 복호화될 수 있다. 이러한 경우 다음의 PccFramePackingBox는 geometry와 image component들 간의 배치 방법을 알려줄 수 있다. 실시예들에 따른 PCC frame packing은 멀티플 PCC 트랙들(multiple PCC tracks)에 적용될 수 있다.

aligned(8) class PccFramePackingBox extends FullBox('pccp', version = 0, 0) {

unsigned int(8) pcc_frame_packing_type

}

실시예들에 따른 pcc_frame_packing_type : geometry와 image component들 간의 배치 방법을 도면과 같이 값으로 할당하여 알려줄 수 있다.

실시예들에 따른 PCC frame packing 관련하여, PCC를 구성하는 geometry image (e.g. D0 layer)와 texture image는 하나의 image frame sequence에 배치되어 하나의 layer로 구성되는 하나의 bitstream으로 복호화될 수 있다. 이러한 경우 다음의 PccFramePackingBox는 geometry와 image component들 간의 배치 방법을 알려줄 수 있다.

aligned(8) class PccFramePackingRegionBox extends FullBox('pccr', version = 0, 0) {

unsigned int(16) packed_picture_width;

unsigned int(16) packed_picture_height;

unsigned int(8) num_sources;

for(i = 0; i<num_sources; i++) {

unsigned int(8) num_regions[i];

unsigned int(2) source_picture_type[i]

bit(6) reserved = 0;

unsigned int(32) source_picture_width[i];

unsigned int(32) source_picture_height[i];

for (j = 0; j < num_regions; j++) {

unsigned int(32) source_reg_width[i][j];

unsigned int(32) source_reg_height[i][j];

unsigned int(32) source_reg_top[i][j];

unsigned int(32) source_reg_left[i][j];

unsigned int(3) transform_type[i][j];

bit(5) reserved = 0;

unsigned int(16) packed_reg_width[i][j];

unsigned int(16) packed_reg_height[i][j];

unsigned int(16) packed_reg_top[i][j];

unsigned int(16) packed_reg_left[i][j];

}

실시예들에 따른 packed_picture_width 및 packed_picture_height 은 패킹된 픽쳐 샘플 유닛 관련 패킹된 픽쳐의 너비 및 높이를 각각 나타낸다. packed_picture_width 및 packed_picture_height은 0보다 클 수 있다(specify the width and height, respectively, of the packed picture, in relative packed picture sample units. packed_picture_width and packed_picture_height shall both be greater than 0.)

실시예들에 따른 num_sources 은 소스 픽쳐들의 개수를 나타낸다(specifies the number of source pictures.)

실시예들에 따른 num_regions[i] 각 소스 픽쳐 마다 패킹된 리젼들의 개수를 나타낸다(specifies the number of packed regions per each source picture.)

실시예들에 따른 num_sourece_picture_type[i] 은 PCC 프레임들을 위한 소스 픽쳐의 타입을 나타낸다. 다음 값들이 기술된다 0: geometry image D0, 1: geometry image D1, 2: texture image, 3: reserved (specifies the type of source picture for PCC frames. The following values are specified: 0: geometry image D0, 1: geometry image D1, 2: texture image, 3: reserved)

실시예들에 따른 source_picture_width[i] 및source_picture_height[i] 은 소프 픽쳐 샘플 유닛들에 관한 소스 픽쳐의 각각 너비 및 높이를 나타낸다. source_picture_width[i] 및 sourcej_picture_height[i]은 0보다 클 수 있다(specify the width and height, respectively, of the source picture, in relative source picture sample units. source_picture_width[i] and sourcej_picture_height[i] shall both be greater than 0.)

실시예들에 따른 source_reg_width[i][j], source_reg_height[i][j], source_reg_top[i][j], 및 source_reg_left[i][j] 은 i번째 소스 픽쳐 내 j번째 소스 리젼 각각의 너비, 높이, 탑 오프셋 및 레프트 오프셋을 나타낸다(specify the width, height, top offset, and left offset, respectively, of the j-th source region, either within the i-th source picture.)

실시예들에 따른 transform_type[i][j] 은 i번째 소스 픽쳐의 j번째 프로젝트된 리젼에 리맵핑하는 j번째 패킹된 리젼에 적용되는 로테이션 및 미러링을 나타낸다. transform_type[i][j]이 로테이션 및 미러링 모두를 나타내는 경우, 로테이션은 패킹된 리젼의 샘플 로케이션들을 프로젝트된 리젼의 샘플 로케이션들로 전환하기 위한 미러링 이전에 적용될 수 있다. 다음 값들이 표현된다: 0: no transform, 1: mirroring horizontally, 2: rotation by 180 degrees (counter-clockwise), 3: rotation by 180 degrees (counter-clockwise) before mirroring horizontally, 4: rotation by 90 degrees (counter-clockwise) before mirroring horizontally, 5: rotation by 90 degrees (counter-clockwise), 6: rotation by 270 degrees (counter-clockwise) before mirroring horizontally, 7: rotation by 270 degrees (counter-clockwise) (specifies the rotation and mirroring that is applied to the j-th packed region to remap it to the j-th projected region of the i-th source picthre. When transform_type[i][j] specifies both rotation and mirroring, rotation is applied before mirroring for converting sample locations of a packed region to sample locations of a projected region. )

실시예들에 따른 packed_reg_width[i][j], packed_reg_height[i][j], packed_reg_top[i][j], 및 packed_reg_left[i][j] 은 i번째 소스 픽쳐을 위한 j번째 패킹된 리젼의 너비, 높이, 포프셋, 레프트 오프셋을 나타낸다(specify the width, height, the offset, and the left offset, respectively, of the j-th packed region for the i-the source picture.)

이하에서, 도 49의 NALU stream 기반 Multiplexing/Demultiplexing 관련하여, 추가 실시예들을 설명한다. 도49 및 이하의 설명을 함께 참조할 수 있다.

이하에서, 실시예들에 따른 메타데이터를 확장(extension)하는 방안을 제안한다.

실시예들에 따른 Geometry / Texture image 관련하여, Nuh_layer_id를 이용한 D0, D1, texture 구분이 가능하다. 또한, layer 별 PCC 시그널링 방안을 제안한다 (e.g. new SEI message, VPS에 정보 추가). 실시예들에 따른SEI message가 제공될 수 있고, VPS extension syntax 정의를 제안한다. 추가로, 실시예들은 PPS를 이용한 D0, D1, texture 구분이 가능하다. PPS extension을 이용한 시그널링 (D0 or D1 or texture)을 제안하고, 하나의 스트림에 복수 PPS에 기반하여 개별 NAL unit(slice)에서 해당 VPS 링크 (activation)를 제공하는 방안을 제안한다.

실시예들에 따른 Occupancy map / Auxiliary patch information 관련하여, 새로운SEI message를 제안한다. 또한, PPS extension syntax 정의를 제안한다.

실시예들에 따른 PCC GOF header 관련하여, 새로운 SEI message를 제안한다. 또한, 실시예들은 VPS extension syntax 정의 및 SPS extension syntax 정의를 제안한다.

실시예들에 따른 PCC NAL unit 은 new NAL unit type 을 정의한다. 예를 들어, Parameter set 만 포함하는 NAL unit 이 있을 수 있다. 예를 들어, PCC_VPS_NUT, PCC_SPS_NUT, PCC_PPS_NUT.

실시예들에 따른 IRAP PCC AU 은 PCC GOF 의 시작 AU를 포함하는 NAL unit일 수 있다.

실시예들에 따른 Access unit delimiter 은 PCC AU의 끝을 알릴 수 있다 (AU단위로 interleaving 되었을때).

실시예들에 따른 NAL unit interleaving 은 component 별로 다른 interleaving 적용이 가능하다. 예를 들어, GOP 구조가 같은 경우 AU 단위 interleaving, 그렇지 않은 경우 GOF 단위 interleaving. 구체적으로, GOF 단위 interleaving 및/또는 AU 단위 interleaving 이 가능하다. 실시예들에 따른 AU 단위 interleaving은 Component들의 GOP 구조가 같은 경우 및/또는 Component들의 GOP 구조가 다른 경우에 수행될 수 있다. 여기서 실시예들에 따른 GOP 구조가 다른 경우는 Decoding delay (DPB output delay) 차이 값에 기반하여 결정될 수 있다.

제안하는 실시예들을 이하에서 좀 더 상세하게 설명한다.

도56은 실시예들에 따른 VPS extension을 나타낸다.

실시예들에 따른 VPS extension with PCC layer information 관련하여, 앞서 설명한 PCC layer information은 SEI message로 구성되는 방법 이외에도 VPS extension 형태로 VPS 내에 포함될 수도 있다. 예를 들어 vps_pcc_layer_info_extension_flag를 VPS내에 추가하여 vps_pcc_layer_info_extension()의 존재 유무를 알릴 수 있다. vps_pcc_extension() 내부의 필드의 의미는 앞선 PCC layer information SEI message에서와 동일하다.

여러 개의 VPS에서 서로 다른 vps_pcc_layer_info_extension() 정보를 포함하여, 시간의 흐름에 따라 다른 VPS를 활성화(activation) 함으로써, 시간의 흐름에 따라 변화하는 PCC layer information을 적용할 수 있다. VPS의 activation을 위해 active parameter sets SEI message가 사용될 수 있다.

실시예들에 따른 video_parameter_set 는 vps_pcc_layer_info_extension_flag에 기반하여 실시예들에 따른 vps_pcc_extension() 를 시그널링할 수 있다.

실시예들에 따른 vps_pcc_layer_info_extension()는 num_layers, nuh_layer_id 및/또는 pcc_data_type을 전달할 수 있다. 각 필드의 정의는 상술한 바와 같다.

도57은 실시예들에 따른 pic_parameter_set을 나타낸다.

실시예들에 따른 PPS extension with PCC data type 관련하여, PCC bitstream에 포함된 PCC component들의 data type을 구분하기 위하여 PPS extension syntax가 정의될 수 있다. 일례로 pps_data_type_extension_flag를 PPS내에 추가하여 pps_data_type_extension()의 존재 유무를 알릴 수 있다. pps_data_type_extension()의 pcc_data_type은 slice header의 slice_pic_parameter_set_id를 이용하여 현재의 PCC를 참조 (activation)하는 slice에 포함된 PCC component의 data type을 나타낸다. 일례로 0일 경우 occupancy map, 1일 경우 auxiliary patch information, 2일 경우 geometry image D1, 3일 경우 geometry image D0, 4일 경우 texture image가 sample auxiliary information임을 나타낼 수 있다.

이 경우 앞서 하나의 layer를 하나의 PCC data type에 적용한 경우와 달리, 하나의 layer에 모든 data type의 PCC component들을 포함할 수 있다.

실시예들에 따른 NALU 스트림은 도면과 같이 VPS, SPS를 포함하고, 지오메트리 텍스쳐에 대한 PPS를 갖는 NALU유닛을 포함하고, 지오메트리, 텍스쳐에 대한 슬라이스를 갖는 NALU유닛을 포함한다. PPS 및 슬라이스 간 참조 방법은 실시예들에 따른 시그널링 정보(메타데이터)에 기반하여 수행된다.

실시예들에 따른 pic_parameter_set은 pps_pcc_data_type_extension_flag 에 기반하여 pps_pcc_data_type_extension(　)을 시그널링할 수 있다. 실시예들에 따른 vps_pcc_data_type_extension()은 pcc_data_type을 알려준다. 이로 인하여, 슬라이스 간 activation 관계를 디코더가 획득할 수 있다. 실시예들에 따른 pps_extension_data_flag은 pps extension data의 존재 여부를 시그널링할 수 있다.

실시예들에 따른 PPS extension with auxiliary patch information 관련하여, PCC auxiliary patch information을 전달하기 위하여 PPS extension syntax가 정의될 수 있다. 일례로 pps_pcc_auxiliary_patch_info_extension_flag를 PPS내에 추가하여 pps_pcc_auxiliary_patch_info_extension()의 존재 유무를 알릴 수 있다. pps_pcc_auxiliary_patch_info_extension()의 내부 필드들은 slice header의 slice_pic_parameter_set_id를 이용하여 현재의 PCC를 참조 (activation)하는 slice에 적용될 PCC auxiliary patch information을 나타낸다. 서로 다른 pps_pcc_auxiliary_patch_info_extension()을 갖는 여러 개의 PPS를 송신단에 전달하고 slice에서 시간의 흐름에 따라 다른 PPS를 activation함으로써 시간에 따라 변화하는 PCC auxiliary patch information을 적용할 수 있다.

pps_pcc_auxiliary_patch_info_extension()과 동일한 정보 [e.g. sps_pcc_auxiliary_patch_info_extension()]가 SPS에 포함될 수 있다. 시간의 흐름에 따른 SPS의 activation을 위해 active parameter sets SEI message가 사용될 수 있다.

실시예들에 따른 pic_parameter_set은 pps_pcc_auxiliary_patch_info_extension_flag에 기반하여 pps_pcc_auxiliary_patch_info_extension(　)을 시그널링할 수 있다. pps_pcc_auxiliary_patch_info_extension ()은 slice header의 slice_pic_parameter_set_id에 기반하여 PCC를 참조 (activation)하는 slice에 적용될 PCC auxiliary patch information일 수 있다. 예를 들어, 하나의 PPS를 포함하는 NALU유닛을 activation하는 슬라이스가 하나 또는 하나 이상일 수 있다.

실시예들에 따른 PPS는 NALU유닛 링크를 제공하고, 실시예들에 따른 pps_pcc_data_type_extension(　)를 추가함으로써, 유닛 링크에 기반한 PCC데이터 타입을 시그널링할 수 있는 효과가 있다.

실시예들에 따른 pps_pcc_auxiliary_patch_info_extension(　)는 별도의 SEI 메시지를 정의하지 않고 PCC데이터를 시그널링할 수 있는 효과가 있다.

실시예들에 따른 PPS extension with occupancy map 관련하여, PCC occupancy map 을 전달하기 위하여 PPS extension syntax가 정의될 수 있다. 일례로 pps_pcc_occupancy_map_extension_flag를 PPS내에 추가하여 pps_pcc_occupancy_map_extension()의 존재 유무를 알릴 수 있다. pps_pcc_occupancy_map_extension()의 내부 필드들은 slice header의 slice_pic_parameter_set_id를 이용하여 현재의 PCC를 참조 (activation)하는 slice에 적용될 PCC occupancy map을 나타낸다. 서로 다른 pps_pcc_occupancy_map_extension()을 갖는 여러 개의 PPS를 송신단에 전달하고 slice에서 시간의 흐름에 따라 다른 PPS를 activation함으로써 시간에 따라 변화하는 PCC occupancy map을 적용할 수 있다.

pps_pcc_occupancy_map_extension()과 동일한 정보 [e.g. sps_pcc_occupancy_map_extension()]가 SPS에 포함될 수 있다. 시간의 흐름에 따른 SPS의 activation을 위해 active parameter sets SEI message가 사용될 수 있다.

실시예들에 따른 pic_parameter_set은 pps_pcc_occupancy_map_extension_flag에 기반하여 pps_pcc_occupancy_map_extension(　)를 시그널링할 수 있다. 실시예들에 따른 pps_pcc_occupancy_map_extension()은 어큐판시 맵 관련 정보를 전달한다. 또한, 하나의 PPS를 포함하는 NALU유닛을 activation하는 슬라이스가 하나 또는 하나 이상일 수 있다.

도60은 실시예들에 따른 vps_pcc_gof_header_extension()을 나타낸다.

실시예들에 따른 VPS extension with PCC GOF header 관련하여, 앞서 설명한 PCC group of frames header는 SEI message로 구성되는 방법 이외에도 VPS extension 형태로 VPS 내에 포함될 수도 있다. 일례로 vps_pcc_gof_header_extension_flag를 VPS내에 추가하여 vps_pcc_gof_header_extension()의 존재 유무를 알릴 수 있다. vps_pcc_gof_header_extension() 내부의 필드의 의미는 앞선 PCC group of frames header SEI message에서와 동일하다.

여러 개의 VPS에서 서로 다른 vps_pcc_gof_header_extension() 정보를 포함하여, 시간의 흐름에 따라 다른 VPS를 활성화(activation) 함으로써, 시간의 흐름에 따라 변화하는 PCC GOF header를 적용할 수 있다. VPS의 activation을 위해 active parameter sets SEI message가 사용될 수 있다.

VPS extension을 이용한 PCC GOF header 전달 방법은 앞서 설명한 하나의 layer가 하나의 data type의 PCC component와 맵핑될 때 적용 가능하다.

VPS extension이 아닌, SPS extension을 이용하여 PCC GOF heade를 전달할 수도 있다. [e.g. vps_pcc_gof_header_extension()]. 이 경우는 앞서 모든 data type의 PCC componen들이 하나의 layer를 통해 전달될 때 적용 가능하다.

실시예들에 따른 video_parameter_set은 vps_pcc_gof_header_extension_flag에 기반하여 vps_pcc_gof_header_extension()을 시그널링하고, 실시예들에 따른 vps_pcc_gof_header_extension()은 프레임 헤어듸 PCC 그룹 정보를 전달한다.

도61은 실시예들에 따른 pcc_nal_unit을 나타낸다.

실시예들에 따른 PCC NAL unit 관련하여, PCC component 전달을 위해 PCC NAL unit syntax가 다음과 같이 정의될 수 있다. PCC NAL unit header는 PCC component 구분을 위한 pcc_nal_unit_type_plus1을 포함할 수 있다. PCC NAL unit payload (rbsp_byte)에는 기존 HEVC NAL unit 또는 AVC NAL unit이 포함될 수 있다.

실시예들에 따른 forbidden_zero_bit은 0일 수 있다.

실시예들에 따른 타입은 PCC group of frames의 시작 NAL unit을 나타낼 수있다. VPS, SPS, PPS 등의 parameter set과 IDR, CRA, BLA 등 IRAP picture의 slice data를 포함할 수 있다.

실시예들에 따른 타입은 VPS, SPS, PPS 등 parameter set을 포함할 수 있다.

실시예들에 따른 타입은 PCC access unit delimiter로 PCC AU의 끝을 나타내며 pcc_access_unit_delimiter_rbsp()를 포함할 수 있다.

실시예들에 따른 타입은 PCC group of frames delimiter로 PCC AU의 끝을 나타내며 pcc_group_of_frames_delimiter_rbsp()를 포함할 수 있다.

실시예들에 따른 타입은 PCC sequence의 끝을 나타내며 pcc_end_of_seq_rbsp()를 포함할 수 있다. PCC sequence는 하나의 PCC component의 coded bitstream을 의미할 수 있다.

실시예들에 따른 타입은 PCC bitstream의 끝을 나타내며 pcc_end_of_bitstream_rbsp()를 포함할 수 있다. PCC bitstream은 전체 PCC componen들의 coded bitstream을 의미할 수 있다.

실시예들에 따른 pcc_nal_unit_type_plus1 은 이 값이 1을 마이너스 한 값이 PccNalUnitType 변수의 값을 나타낸다. 실시예들에 따른 PccNalUnitType 변수는 PCC NAL unit에 포함된 RBSP data의 구조의 타입을 나타낸다.

도62는 실시예들에 따른 PCC 관련 구문의 예시를 나타낸다.

실시예들에 따라, 앞서 언급한 pcc_access_unit_delimiter_rbsp(), pcc_group_of_frames_delimiter_rbsp(), pcc_end_of_seq_rbsp(), pcc_end_of_bitstream_rbsp()의 구문및 의미는 다음과 같을 수 있다.

실시예들에 따른 pcc_geometry_d0_flag : 1로 설정될 경우 현재 PCC access unit delimiter에 의해 구분되는 PCC access unit에 PCC geometry d0 image가 포함됨을 의미할 수 있다. 0일 경우 PCC geometry d0 image를 포함하지 않음을 의미할 수 있다.

실시예들에 따른 pcc_geometry_d1_flag : 1로 설정될 경우 현재 PCC access unit delimiter에 의해 구분되는 PCC access unit에 PCC geometry d1 image가 포함됨을 의미할 수 있다. 0일 경우 PCC geometry d1 image를 포함하지 않음을 의미할 수 있다.

실시예들에 따른 pcc_texture_flag : 1로 설정될 경우 현재 PCC access unit delimiter에 의해 구분되는 PCC access unit에 PCC texture image가 포함됨을 의미할 수 있다. 0일 경우 PCC texture image 를 포함하지 않음을 의미할 수 있다.

실시예들에 따른 pcc_auxiliary_patch_info_flag : 1로 설정될 경우 현재 PCC access unit delimiter에 의해 구분되는 PCC access unit에 PCC auxiliary patch information이 포함됨을 의미할 수 있다. 0일 경우 PCC auxiliary patch information을 포함하지 않음을 의미할 수 있다.

실시예들에 따른 pcc_occupancy_map_flag : 1로 설정될 경우 현재 PCC access unit delimiter에 의해 구분되는 PCC access unit에 PCC occupancy map이 포함됨을 의미할 수 있다. 0일 경우 PCC occupancy map을 포함하지 않음을 의미할 수 있다.

이러한 필드들에 의해 수신기는 현재 AU에 PCC component들이 존재하는지 여부를 알 수 있고, 존재하지 않을 경우 이전 AU들에서 해당 component들을 가져와 point cloud를 재구성하는데 사용할 수 있다.

도63은 실시예들에 따른 PCC data interleaving 정보를 나타낸다.

실시예들에 따른 PCC data interleaving 방법 관련하여, PCC data들의 interleaving 방법을 기술하기 위해 다음의 pcc_data_interleaving_info()와 같은 구문을 정의할 수 있다. 각 필드의 의미는 아래와 같을 수 있다.

실시예들에 따른 num_of_data_set : 하나의 PCC GOF (또는 bitstream)에 포함된 PCC component의 data들 중 interleaving boundary가 동일한 set의 개수를 의미할 수 있다. 일례로 모든 data들의 interleaving boundary가 동일할 경우 1로 설정될 수 있다.

실시예들에 따른 interleaving_boundary[i] : i번째 data set의 interleaving boundary를 나타낼 수 있다. 일례로 0일 경우 GOF 내에서, 1일 경우 AU 내에서 data들이 interleaving 되어 있음을 나타낼 수 있다.

실시예들에 따른 num_of_data[i] : i번째 data set을 구성하는 PCC data들의 개수를 의미할 수 있다.

실시예들에 따른 pcc_data_type[i][j] : i번째 data set의 j번째 data에 해당하는 PCC component의 data type을 나타낼 수 있다. 일례로 0일 경우 occupancy map, 1일 경우 auxiliary patch information, 2일 경우 geometry image D1, 3일 경우 geometry image D0, 4일 경우 texture image가 sample auxiliary information임을 나타낼 수 있다.

실시예들에 따른 base_decoding_delay_flag[i][j]: i번째 data set의 j번째 data가 decoding delay의 기준값으로 설정됨을 나타낼 수 있다.

실시예들에 따른 decoding delay는 hierarchical B picture 등 GOP 코딩에 있어서의 참조 구조에 의해 나타날 수 있는, 입력과 출력 사이의 시간 차이을 의미할 수 있다. hierarchy level -1 [frames]로 정의될 수 있다. 일례로 hierarchy level이 1인 “…”구조의 decoding delay 는 0이며, hierarchy level이 2인 “…”구조의 decoding delay 는 0이며, 1 [frame] 이다.

실시예들에 따른 decoding_delay_delta[i][j]: i번째 data set의 j번째 data의 decoding delay와 가 decoding delay의 기준값과의 차이를 나타낼 수 있다.

실시예들에 따른 pcc_data_interleaving_info()는 다양한 방법으로 PCC bitstream에 포함될 수 있다. 일례로, VPS 또는 PCC extension에 포함되거나, 새로운 SEI message로 정의될 수 있다. 또는 앞서 설명한 PCC GOF header에 포함되어 전달될 수도 있다.

수신기는 본 정보를 바탕으로 PCC data를 동기화 하기위한 버퍼링 방법을 결정할 수있다. 일례로 모든 component들이 AU boundary에서 interleaving되고 decoding delay의 차이가 없다면, 최소 하나의 PCC AU에 해당하는 데이터의 버퍼링 만으로 component들을 동기화 할 수 있다.

실시예들에 따라 PCC data의 multiplexing 할 때, 4가지 PCC data들이 interleaving되는 단위 (GOF or AU)와 이에 따른 수신기에서의 버퍼링 방법을 제안한다. 특히 PCC data가AU 단위로 interleaving되어 있고 video component들의 GOP 참조 구조가 다를 경우, 하나의 AU만을 버퍼링한 (e.g. decoding 완료한) 시점에 재생 (display)을 시작할 수 없다. (예를들어 geometry는 첫번째 프레임이 디코더에서 출력 되었지만, texture의 첫번째 프레임은 디코더에서 출력되지 않은 상태일 수 있다). 이러한 경우에 decoding_delay_delta를 통해 decoding delay의 차이 값을 프레임 수로 식별하여 최소 decoding_delay_delta 만큼의 PCC AU가 버퍼링 되었을 경우 재생을 시작하게 할 수 있는 효과를 실시예들이 제공한다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 단계(S6400); 포인트 클라우드의 속성에 관련된 텍스쳐 이미지를 생성하는 단계(S6401); 포인트 클라우드의 패치에 관련된 어큐판시 맵을 생성하는 단계(S6402); 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 생성하는 단계(S6403); 및/또는 지오메트리 이미지, 텍스쳐 이미지, 어큐판시 맵 및 어실러리 패치 정보를 멀티플렉싱하는 단계(S6404); 를 포함한다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법은 도45에서 설명한 실시예들에 따른 포인트 클라우드 데이터 송신 장치 및/또는 포인트 클라우드 송신 장치의 각 구성요소에 의해서 수행될 수 있다.

방법S6400 관련하여, 포인트 클라우드 데이터에 관한 지오메트리 이미지를 생성하는 과정이다. 도45에서 설명한 바와 같이 포인트 클라우드 프레임, 패치 및 관련된 메타데이터 등에 기반하여 지오메트리 이미지를 생성한다.

방법S6401 관련하여, 포인트 클라우드 데이터에 관한 텍스쳐 이미지를 생성하는 과정이다. 도45에서 설명한 바와 같이 포인트 클라우드 프레임, 패치 및 관련된 메타데이터 등에 기반하여 텍스쳐 이미지를 생성한다.

방법S6402 관련하여, 생성된 패치를 실시예들에 따른 디코더가 복원하기 위해서 필요한 메타데이터를 생성하는 과정이다.

방법S6403 관련하여, 생성된 패치를 실시예들에 따른 디코더가 복원하기 위해서 필요한 메타데이터를 생성하는 과정이다. 패치뿐만 아니라 부가적인 패치 정보도 포인트 클라우드 데이터를 효율적으로 디코딩하기 위해서 필요하다.

실시예들에 따른 메타데이터의 정의 및 이용방법은 포인트 클라우드의 송수신, 인코딩 및/또는 디코딩 성능을 향상시키는 효과가 있다.

방법S6404 관련하여, 상술한 데이터를 전송하기 위해서 인캡슐레이션 및/또는 멀티플렉싱하는 과정이다. 실시예들에 따른 멀티플렉싱 방법은 포인트 클라우드의 송수신, 인코딩 및/또는 디코딩 성능을 향상시키는 효과가 있다.

실시예들에 따른 포인트 클라우드 데이터 송신 방법은 상술한 실시예들에 따른 추가적인 실시예들의 엘리먼트들, 동작들 및/또는 메타데이터들과 결합될 수 있다.

실시예들에 따른 포인트 클라우드 데이터 수신 방법은 포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지, 포인트 클라우드의 속성에 관련된 텍스쳐 이미지, 포인트 클라우드의 패치에 관련된 어큐판시 맵 및 포인트 클라우드의 패치에 관련된 어실러리 패치 정보를 디멀티플렉싱하는 단계(S6500); 지오메트리 이미지를 디컴프레션하는 단계(S6501); 텍스쳐 이미지를 디컴프레션하는 단계(S6502); 어큐판시 맵을 디컴프레션하는 단계(S6503); 및/또는 어실러리 패치 정보를 디컴프레션하는 단계(S6504);를 포함할 수 있다.

실시예들에 따른 포인트 클라우드 데이터 수신 방법은 상술한 실시예들에 따른 추가적인 실시예들의 엘리먼트들, 동작들 및/또는 메타데이터들과 결합될 수 있다.

전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 소프트웨어, 프로세서, 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서, 소프트웨어, 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블락/유닛들은 프로세서, 소프트웨어, 하드웨어로서 동작할 수 있다. 또한, 실시예들이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.

설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시 예들을 병합하여 새로운 실시 예를 구현하도록 설계하는 것도 가능하다. 그리고, 통상의 기술자의 필요에 따라, 이전에 설명된 실시 예들을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 설계하는 것도 실시예들의 권리범위에 속한다.

실시예들에 따른 장치 및 방법은 상술한 바와 같이 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상술한 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

한편, 실시예들이 제안하는 방법을 네트워크 디바이스에 구비된, 프로세서가 읽을 수 있는 기록매체에, 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한, 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한, 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

또한, 이상에서는 실시예들의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 실시예들은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 실시예들의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 실시예들의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.

실시예들의 사상이나 범위를 벗어나지 않고 실시예들에서 다양한 변경 및 변형이 가능함은 당업자에게 이해된다. 따라서, 실시예들은 첨부된 청구항 및 그 동등 범위 내에서 제공되는 실시예들의 변경 및 변형을 포함하는 것으로 의도된다.

본 명세서에서 장치 및 방법 발명이 모두 언급되고, 장치 및 방법 발명 모두의 설명은 서로 보완하여 적용될 수 있다.

이 문서에서 /와 ,는 및/또는으로 해석된다. 예를 들어, A/B는 A 및/또는 B로 해석되고, A, B는 A 및/또는 B로 해석된다. 추가적으로, A/B/C는 A, B 및/또는 C 중 적어도 하나를 의미한다. 또한, A, B, C도 A, B 및/또는 C 중 적어도 하나를 의미한다. (In this document, the term / and , should be interpreted to indicate and/or. For instance, the expression A/B may mean A and/or B. Further, A, B may mean A and/or B. Further, A/B/C may mean at least one of A, B, and/or C. Also, A/B/C may mean at least one of A, B, and/or C.)

추가적으로, 이 문서에서 또는는 및/또는으로 해석된다. 예를 들어, A 또는 B은, 1) A 만을 의미하고, 2) B만을 의미하거나, 3) A 및 B를 의미할 수 있다. 달리 표현하면, 본 문서의 또는은 추가적으로 또는 대체적으로(additionally or alternatively)를 의미할 수 있다. (Further, in the document, the term or should be interpreted to indicate and/or. For instance, the expression A or B may comprise 1) only A, 2) only B, and/or 3) both A and B. In other words, the term or in this document should be interpreted to indicate additionally or alternatively.)

포인트 클라우드 데이터 송수신 장치의 다양한 엘리먼트는 하드웨어, 소프트웨어, 펌웨어 또는 그것들의 결합에 의해 수행될 수 있다. 실시예들에 다양한 엘리먼트들은 하드웨어 회로와 같이 싱글 칩에 의해 수행될 수 있다. 실시예들에 따라, 선택적으로 개별적 칩에 의해 다양한 엘리먼트들이 수행될 수 있다. 실시예들에 따라, 실시예들에 따른 동작을 수행하는 하나 또는 하나 이상의 프로그램들을 실행할 수 있는 하나 또는 하나 이상의 프로세서들에 의해 엘리먼트들이 수행될 수 있다.

실시예들에 따른 용어 해석과 관련하여, 제1, 제2등의 표현은 다양한 엘리먼트들을 설명하기 위해 사용될 수 있다. 이러한 용어들에 의해 실시예들의 엘리먼트들이 해석이 제한되지 않는다. 이러한 용어는 엘리먼트들 간 구별하기 위해 사용될 수 있다.

실시예들의 설명과 관련하여 사용된 용어는 실시예들을 설명하기 위해 사용되었으며, 실시예들을 제한하지 않는다. 단수 및 복수 표현과 관련하여, 단수는 복수로도 해석될 수도록 의도되었고, 및/또는 표현 역시 가능한 모든 결합을 포함하도록 의도되었다. 포함한다는 표현과 관련하여, 포함이라는 의미는 포함된 엘리먼트 외에도 다양한 특징, 숫자, 방법 단계, 동작, 엘리먼트들을 추가로 포함/결합할 수 있도록 의도되었다.

조건 표현과 관련하여, ~인 경우, ~때 등의 조건 표현은 선택적인 경우로만 제한 해석되지 않고, 특정 조건을 만족하는 때, 특정 조건에 대응하여 관련 동작을 수행하거나, 관련 정의가 해석되도록 의도되었다.

상술한 바와 같이, 실시예들을 실시하기 위한 최선의 형태에서 관련 내용을 설명하였다.

상술한 바와 같이, 실시예들은 포인트 클라우드 데이터 송수신 장치 및 시스템에 전체적 또는 부분적으로 적용될 수 있다.

당업자는 실시예들의 범위 내에서 실시예들을 다양하게 변경 또는 변형할 수 있다.

실시예들은 변경/변형들을 포함할 수 있고, 변경/변형은 청구항들 및 그 와 동일한 것들의 범위를 벗어나지 않는다.

Claims

포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 단계;

상기 포인트 클라우드 데이터의 속성에 관련된 텍스쳐 이미지를 생성하는 단계;

상기 포인트 클라우드 데이터의 패치에 관련된 어큐판시 맵을 생성하는 단계;

상기 지오메트리 이미지, 상기 텍스쳐 이미지 및 상기 어큐판시 맵을 멀티플렉싱하는 단계; 를 포함하는

포인트 클라우드 데이터 송신 방법.
제1항에 있어서,

상기 멀티플렉싱은 상기 지오메트리 이미지, 상기 텍스쳐 이미지 및 상기 어큐판시 맵을 파일로 멀티플렉싱하는,

포인트 클라우드 데이터 송신 방법.
제 2항에 있어서,

상기 파일은 멀티플 트랙들을 포함하는,

포인트 클라우드 데이터 송신 방법.
제3항에 있어서,

상기 멀티플 트랙들은 상기 지오메트리 이미지를 포함하는 제1트랙, 상기 텍스쳐 이미지를 포함하는 제2트랙, 상기 어큐판시 맵을 포함하는 제3트랙을 포함하는,

포인트 클라우드 데이터 송신 방법.
제4항에 있어서,

상기 파일은 그룹 박스를 포함하고,

상기 그룹 박스는 상기 제1트랙, 상기 제2트랙 또는 상기 제3트랙 중 적어도 하나를 나타내는 정보를 포함하는,

포인트 클라우드 데이터 송신 방법.
포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지를 생성하는 제너레이터;

상기 포인트 클라우드 데이터의 속성에 관련된 텍스쳐 이미지를 생성하는 제너레이터;

상기 포인트 클라우드 데이터의 패치에 관련된 어큐판시 맵을 생성하는 제너레이터;

상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵을 멀티플렉싱하는 멀티플렉서; 를 포함하는,

포인트 클라우드 데이터 송신 장치.
제6항에 있어서,

상기 멀티플렉서는 상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵을 파일로 멀티플렉싱하는,

포인트 클라우드 데이터 송신 장치.
제 7항에 있어서,

상기 파일은 멀티플 트랙들을 포함하는,

포인트 클라우드 데이터 송신 장치.
제8항에 있어서,

상기 멀티플 트랙들은 상기 지오메트리 이미지를 포함하는 제1트랙, 상기 텍스쳐 이미지를 포함하는 제2트랙, 상기 어큐판시 맵을 포함하는 제3트랙을 포함하는,

포인트 클라우드 데이터 송신 장치.
제9항에 있어서,

상기 파일은 그룹 박스를 포함하고,

상기 그룹 박스는 상기 제1트랙, 상기 제2트랙 또는 상기 제3트랙 중 적어도 하나를 나타내는 정보를 포함하는,

포인트 클라우드 데이터 송신 장치.
포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지, 상기 포인트 클라우드 데이터의 속성에 관련된 텍스쳐 이미지, 상기 포인트 클라우드 데이터의 패치에 관련된 어큐판시 맵을 디멀티플렉싱하는 단계;

상기 지오메트리 이미지를 디컴프레션하는 단계;

상기 텍스쳐 이미지를 디컴프레션하는 단계;

상기 어큐판시 맵을 디컴프레션하는 단계; 를 포함하는,

포인트 클라우드 데이터 수신 방법.
제11항에 있어서,

상기 디멀티플렉싱은 상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵을 파일로 디멀티플렉싱하는,

포인트 클라우드 데이터 수신 방법.
제 11항에 있어서,

상기 파일은 멀티플 트랙들을 포함하는,

포인트 클라우드 데이터 수신 방법.
제13항에 있어서,

상기 멀티플 트랙들은 상기 지오메트리 이미지를 포함하는 제1트랙, 상기 텍스쳐 이미지를 포함하는 제2트랙, 상기 어큐판시 맵을 포함하는 제3트랙을 포함하는,

포인트 클라우드 데이터 수신 방법.
제14항에 있어서,

상기 파일은 그룹 박스를 포함하고,

상기 그룹 박스는 상기 제1트랙, 상기 제2트랙 또는 상기 제3트랙 중 적어도 하나를 나타내는 정보를 포함하는,

포인트 클라우드 데이터 수신 방법.
포인트 클라우드 데이터의 위치에 관련된 지오메트리 이미지, 상기 포인트 클라우드 데이터의 속성에 관련된 텍스쳐 이미지, 상기 포인트 클라우드 데이터의 패치에 관련된 어큐판시 맵을 디멀티플렉싱하는 디멀티플렉서;

상기 지오메트리 이미지를 디컴프레션하는 디컴프레서;

상기 텍스쳐 이미지를 디컴프레션하는 디컴프레서;

상기 어큐판시 맵을 디컴프레션하는 디컴프레서; 를 포함하는,

포인트 클라우드 데이터 수신 장치.
제16항에 있어서,

상기 디멀티플렉서는 상기 지오메트리 이미지, 상기 텍스쳐 이미지, 상기 어큐판시 맵을 파일로 디멀티플렉싱하는,

포인트 클라우드 데이터 수신 장치.
제 16항에 있어서,

상기 파일은 멀티플 트랙들을 포함하는,

포인트 클라우드 데이터 수신 장치.
제18항에 있어서,

상기 멀티플 트랙들은 상기 지오메트리 이미지를 포함하는 제1트랙, 상기 텍스쳐 이미지를 포함하는 제2트랙, 상기 어큐판시 맵을 포함하는 제3트랙을 포함하는,

포인트 클라우드 데이터 수신 장치.
제19항에 있어서,

상기 파일은 그룹 박스를 포함하고,

상기 그룹 박스는 상기 제1트랙, 상기 제2트랙 또는 상기 제3트랙 중 적어도 하나를 나타내는 정보를 포함하는,

포인트 클라우드 데이터 수신 장치.