WO2023113405A1

WO2023113405A1 - 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법

Info

Publication number: WO2023113405A1
Application number: PCT/KR2022/020139
Authority: WO
Inventors: 헨드리헨드리
Original assignee: 엘지전자 주식회사
Priority date: 2021-12-13
Filing date: 2022-12-12
Publication date: 2023-06-22

Abstract

포인트 클라우드 데이터의 전송 장치, 전송 장치에서 수행되는 방법, 수신 장치, 및 수신 장치에서 수행되는 방법이 제공된다. 본 개시에 따른 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법은 G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득하는 단계 및 상기 시간적 확장성 정보를 기반으로 상기 3차원 포인트 클라우드를 복원하는 단계를 포함하며 상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고, 상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

Description

포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법

본 개시는 포인트 클라우드 콘텐트(point cloud content)를 처리하는 방법 및 장치에 대한 것이다.

포인트 클라우드 콘텐트는 3차원 공간을 표현하는 좌표계에 속한 점(포인트)들의 집합인 포인트 클라우드로 표현되는 콘텐트이다. 포인트 클라우드 콘텐트는 3차원으로 이루어진 미디어를 표현할 수 있으며, VR(virtual reality, 가상현실), AR(augmented reality, 증강현실), MR(mixed reality, 혼합현실), 및 자율 주행 서비스 등의 다양한 서비스를 제공하기 위해 사용된다. 포인트 클라우드 콘텐트를 표현하기 위해서는 수만 개에서 수십만 개의 포인트 데이터가 필요하므로, 방대한 양의 포인트 데이터를 효율적으로 처리하기 위한 방법이 요구된다.

본 개시는 포인트 클라우드 데이터를 효율적으로 처리하기 위한 장치 및 방법을 제공한다. 본 개시는 지연시간(latency) 및 인코딩/디코딩 복잡도를 해결하기 위한 포인트 클라우드 데이터 처리 방법 및 장치를 제공한다.

또한, 본 개시는 지오메트리 기반 포인트 클라우드 압축 데이터(G-PCC)의 운반(carriage)에 시간적 확장성(temporal scalability)을 지원하기 위한 장치 및 방법들을 제공한다.

또한, 본 개시는 G-PCC 비트스트림을 파일 내 단일 트랙에 효율적으로 저장하거나 복수의 트랙들에 분할하여 저장하고, 이에 대한 시그널링을 제공하는 포인트 클라우드 콘텐트 서비스 제공을 위한 장치 및 방법들을 제안한다.

또한, 본 개시는 저장된 G-PCC 비트스트림에 대한 효율적인 접근을 지원할 수 있도록 하기 위한 파일 저장 기법을 처리하는 장치 및 방법들을 제안한다.

또한, 본 개시는 시간적 확장성이 지원되는 경우 서로 다른 시간적 레벨에 속하는 샘플 간의 인터리빙 여부를 정의하기 위한 장치 및 방법들을 제안한다.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 실시예에 따르면, 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법은 G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득하는 단계 및 상기 시간적 확장성 정보를 기반으로 상기 3차원 포인트 클라우드를 복원하는 단계를 포함하며 상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고, 상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 레벨의 식별자 값은 동일한 값만큼의 간격을 갖는 이산적인 값이고 상기 간격은 1일 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 레벨 트랙 마다 서로 다른 상기 시간적 레벨의 식별자의 샘플이 포함될 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 레벨 트랙은 제1 시간적 레벨 트랙 및 제2 시간적 레벨 트랙을 포함하되, 상기 제2 시간적 레벨 트랙이 상기 제1 시간적 레벨 트랙의 다음 트랙이면, 상기 제2 시간적 레벨 트랙은 상기 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값보다 큰 시간적 레벨의 식별자의 샘플을 포함할 수 있다.

본 개시의 일 실시예에 따르면, 상기 제2 시간적 레벨 트랙은 상기 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값에 1을 더한 식별자 값의 샘플을 포함할 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 확장성 정보는 복수의 시간적 레벨 트랙의 존재 여부에 대한 제2 신택스 요소를 더 포함하되, 상기 제2 신택스 요소의 제1 값은 하나의 시간적 레벨 트랙이 존재함을 나타내고, 상기 제2 신택스 요소의 제2 값은 복수의 시간적 레벨 트랙이 존재함을 나타낼 수 있다.

본 개시의 일 실시예에 따르면, 상기 제1 값은 0일 수 있다.

본 개시의 일 실시예에 따르면, 상기 제2 값은 1일 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 레벨 트랙은 연속적인 시간적 레벨의 샘플만을 포함할 수 있다.

본 개시의 일 실시예에 따르면, 상기 시간적 레벨 트랙 간에는 서로 다른 시간적 레벨의 샘플만이 포함될 수 있다.

본 개시의 일 실시예에 따르면, 포인트 클라우드 데이터의 전송 장치에서 수행되는 방법은 3차원 공간의 포인트 클라우드 데이터에 시간적 확장성이 적용되는지 여부를 결정하는 단계 및 시간적 확장성 정보 및 상기 포인트 클라우드 데이터를 포함하여 G-PCC 파일을 생성하는 단계를 포함하되, 상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고, 상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다. 되는, 방법.

본 개시의 일 실시예에 따르면, 포인트 클라우드 데이터의 수신 장치는 메모리 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득하고, 상기 시간적 확장성 정보를 기반으로 상기 3차원 포인트 클라우드를 복원하며 상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고 상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

본 개시의 일 실시예에 따르면, 포인트 클라우드 데이터의 전송 장치는 메모리 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 3차원 공간의 포인트 클라우드 데이터에 시간적 확장성이 적용되는지 여부를 결정하고, 시간적 확장성 정보 및 상기 포인트 클라우드 데이터를 포함하여 G-PCC 파일을 생성하되, 상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고, 상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

본 개시의 일 실시예에 따르면, G-PCC 비트스트림 혹은 파일을 저장하는 컴퓨터 판독 가능한 매체가 개시된다. G-PCC 비트스트림 혹은 파일은 포인트 클라우드 데이터의 전송 장치가 수행하는 방법에 의해 생성될 수 있다.

본 개시의 일 실시예에 따르면, G-PCC 비트스트림 혹은 파일을 전송하는 방법이 개시된다. G-PCC 비트스트림 혹은 파일은 포인트 클라우드 데이터의 전송 장치가 수행하는 방법에 의해 생성될 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 높은 효율로 포인트 클라우드 데이터를 처리할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 높은 퀄리티의 포인트 클라우드 서비스를 제공할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 VR 서비스, 자율주행 서비스 등 범용적인 서비스를 제공하기 위한 포인트 클라우드 콘텐트를 제공할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 G-PCC 컴포넌트들 중에서 원하는 컴포넌트에 효과적으로 액세스할 수 있는 시간적 확장성을 제공할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 시간적 확장성이 지원되는 경우 서로 다른 시간적 레벨에 속하는 샘플 간의 인터리빙 여부를 정의할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 시간적 식별자의 값에 대한 체계를 정의함으로써 다중 트랙 G-PCC 컨텐츠의 트랙 체계를 명확하게 정의하여, 영상 부호화/복호화 효율 및 속도를 향상시킬 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 시간적 확장성을 지원함으로써, 네트워크 기능이나 디코더 기능 등과 일치하는 높은 수준에서 데이터를 조작할 수 있으므로, 포인트 클라우드 콘텐트 제공 시스템의 성능을 향상시킬 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 G-PCC 비트스트림을 파일 내 하나 이상의 복수 트랙으로 분할 저장할 수 있다.

본 개시의 실시예들에 따른 장치 및 방법은 재생의 복잡성 증가를 저하시켜 부드러우면서도 점진적인 재생을 가능하게 할 수 있다.

도 1은 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트 제공 시스템의 예시를 나타내는 블록도이다.

도 2는 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트 제공 과정의 예시를 나타내는 블록도이다.

도 3은 본 개시의 실시예들에 따른 포인트 클라우드 비디오 획득 과정의 예시를 나타낸다.

도 4는 본 개시의 실시예들에 따른 포인트 클라우드 부호화 장치의 예시를 나타낸다.

도 5는 본 개시의 실시예들에 따른 복셀의 예시를 나타낸다.

도 6은 본 개시의 실시예들에 따른 옥트리 및 오큐판시 코드의 예시를 나타낸다.

도 7은 본 개시의 실시예들에 따른 이웃 노드 패턴의 예시를 나타낸다.

도 8은 본 개시의 실시예들에 따른 LOD 거리 값에 따른 포인트들의 구성에 대한 예시를 나타낸다.

도 9는 본 개시의 실시예들에 따른 LOD 별 포인트 구성의 예시를 나타낸다.

도 10은 본 개시의 실시예들에 따른 포인트 클라우드 복호화 장치의 예시를 나타내는 블록도이다.

도 11은 본 개시의 실시예들에 따른 포인트 클라우드 복호화 장치의 다른 예시를 나타내는 블록도이다.

도 12는 본 개시의 실시예들에 따른 전송 장치의 다른 예시를 나타내는 블록도이다.

도 13은 본 개시의 실시예들에 따른 수신 장치의 다른 예시를 나타내는 블록도이다.

도 14는 본 개시의 실시예들에 따른 포인트 클라우드 데이터 송수신 방법/장치와 연동 가능한 구조의 예시를 나타낸다.

도 15는 본 개시의 실시예들에 따른 바운딩 박스를 3차원 블록들로 공간 분할한 예시를 나타낸다.

도 16은 본 개시의 실시예들에 따른 비트스트림의 구조에 대한 예시를 나타낸다.

도 17은 본 개시의 일 실시예에 따른 싱글 트랙을 포함하는 파일에 대한 예시를 나타낸다.

도 18은 본 개시의 일 실시예에 따른 멀티플 트랙을 포함하는 파일에 대한 예시를 나타낸다.

도 19 내지 도 23은 본 개시의 일 실시예에 따른 시간적 확장성 정보의 예시를 나타낸다.

도 24는 본 개시의 일 실시예에 따른 포인트 클라우드 데이터 수신 장치가 수행하는 방법에 대한 흐름도이다.

도 25는 본 개시의 일 실시예에 따른 포인트 클라우드 데이터 전송 장치가 수행하는 방법에 대한 흐름도이다.

이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 개시의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결 관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시예에서의 제1 구성요소는 다른 실시예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.

본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시예도 본 개시의 범위에 포함된다.

본 개시에 있어서, 다양한 실시예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시예도 본 개시의 범위에 포함된다.

본 개시는 포인트 클라우드 관련 데이터의 부호화 및 복호화에 관한 것으로서, 본 개시에서 사용되는 용어는, 본 개시에서 새롭게 정의되지 않는 한 본 개시가 속한 기술 분야에서 통용되는 통상의 의미를 가질 수 있다.

본 개시에서 “/”와 “,”는 “및/또는”으로 해석될 수 있다. 예를 들어, “A/B”와 “A, B”는 “A 및/또는 B”로 해석될 수 있다. 또한, “A/B/C”와 “A, B, C”는 “A, B 및/또는 C 중 적어도 하나”를 의미할 수 있다.

본 개시에서 “또는”은 “및/또는”으로 해석될 수 있다. 예를 들어, “A 또는 B”는, 1) “A” 만을 의미하거나 2) “B” 만을 의미하거나, 3) “A 및 B”를 의미할 수 있다. 또는, 본 개시에서 “또는”은 “추가적으로 또는 대체적으로(additionally or alternatively)”를 의미할 수 있다.

본 개시는 포인트 클라우드 관련 데이터의 압축에 관한 것이다. 본 개시의 다양한 방법 또는 실시예들은 MPEG(moving picture experts group)의 PCC(point cloud compression 또는 point cloud coding) 표준(ex. G-PCC or V-PCC 표준) 또는 차세대 비디오/이미지 코딩 표준에 적용될 수 있다.

본 개시에 있어서, “포인트 클라우드”는 3차원 공간에 위치한 포인트들의 집합을 의미할 수 있다. 또한, 본 개시에 있어서, “포인트 클라우드 콘텐트”는 포인트 클라우드로 표현되는 콘텐트로서, “포인트 클라우드 비디오/영상”를 의미할 수 있다. 이하에서는, '포인트 클라우드 비디오/영상'을 '포인트 클라우드 비디오'라 한다. 포인트 클라우드 비디오는 하나 이상의 프레임들을 포함할 수 있으며, 하나의 프레임은 정지 영상 또는 픽쳐일 수 있다. 따라서, 포인트 클라우드 비디오는 포인트 클라우드 영상/프레임/픽쳐를 포함할 수 있으며, “포인트 클라우드 영상”, “포인트 클라우드 프레임” 및 “포인트 클라우드 픽쳐” 중에서 어느 하나로 지칭될 수 있다.

본 개시에 있어서, “포인트 클라우드 데이터”는 포인트 클라우드 내 각 포인트들에 관련된 데이터 또는 정보 등을 의미할 수 있다. 포인트 클라우드 데이터는 지오메트리(geometry) 및/또는 어트리뷰트(attribute, 속성)를 포함할 수 있다. 또한, 포인트 클라우드 데이터는 메타(meta) 데이터를 더 포함할 수도 있다. 포인트 클라우드 데이터는 “포인트 클라우드 콘텐트 데이터” 또는 “포인트 클라우드 비디오 데이터” 등으로 지칭될 수 있다. 또한, 포인트 클라우드 데이터는 “포인트 클라우드 콘텐트”, “포인트 클라우드 비디오”, “G-PCC 데이터” 등으로 지칭될 수 있다.

본 개시에 있어서, 포인트 클라우드 데이터에 해당하는 포인트 클라우드 오브젝트(object)는 좌표계에 기반한 박스 형태로 나타낼 수 있으며, 이 좌표계에 기반한 박스 형태를 바운딩 박스(bounding box)라 할 수 있다. 즉, 바운딩 박스는 포인트 클라우드의 포인트들을 모두 담을 수 있는 직육면체(rectangular cuboid)일 수 있으며, 원본(source) 포인트 클라우드 프레임이 포함되는 직육면체일 수 있다.

본 개시에 있어서, 지오메트리는 각 포인트들의 포지션(또는, 포지션 정보)을 포함하며, 이 포지션은 3차원 좌표계(예를 들어, x축, y축 및 z축으로 이루어진 좌표계)를 나타내는 파라미터들(예를 들어, x축 값, y축 값 및 z축 값)로 표현될 수 있다. 지오메트리는 “지오메트리 정보”로 지칭될 수 있다.

본 개시에 있어서, 어트리뷰트는 각 포인트들의 속성을 포함할 수 있으며, 이 속성은 각 포인트들의 텍스쳐(texture) 정보, 색상(RGB 또는 YCbCr), 반사율(reflectance, r), 투명도(transparency) 등 중에서 하나 이상을 포함할 수 있다. 어트리뷰트는 “어트리뷰트 정보”로 지칭될 수 있다. 메타 데이터는 후술되는 획득 과정에서 획득에 관련된 다양한 데이터들을 포함할 수 있다.

포인트 클라우드 콘텐트 제공 시스템의 개요

도 1은 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트를 제공하는 시스템(이하에서는, '포인트 클라우드 콘텐트 제공 시스템'이라 한다)의 예시를 나타낸다. 도 2는 포인트 클라우드 콘텐트 제공 시스템이 포인트 클라우드 콘텐트를 제공하는 과정의 예시를 나타낸다.

도 1에 예시된 바와 같이, 포인트 클라우드 콘텐트 제공 시스템은 전송 장치(transmission device, 10) 및 수신 장치(reception device, 20)를 포함할 수 있다. 포인트 클라우드 콘텐트 제공 시스템은 전송 장치(10)와 수신 장치(20)의 동작에 의해 도 2에 예시된 획득 과정(S20), 인코딩 과정(S21), 전송 과정(S22), 디코딩 과정(S23), 렌더링 과정(S24) 및/또는 피드백 과정(S25)을 수행할 수 있다.

전송 장치(10)는 포인트 클라우드 콘텐트를 제공하기 위하여, 포인트 클라우드 데이터를 획득하고, 획득된 포인트 클라우드 데이터(원본 포인트 클라우드 데이터)에 대한 일련의 과정(예를 들어, 인코딩 과정)을 거쳐 비트스트림을 출력할 수 있다. 여기서, 포인트 클라우드 데이터는 인코딩 과정을 거쳐 비트스트림 형태로 출력될 수 있다. 실시예들에 따라, 전송 장치(10)는 출력된 비트스트림을 파일 또는 스트리밍(스트리밍 세그먼트) 형태로 디지털 저장매체 또는 네트워크를 통하여 수신 장치(20)로 전송할 수 있다. 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 수신 장치(20)는 수신된 데이터(예를 들어, 인코딩된 포인트 클라우드 데이터)를 다시 원래의 포인트 클라우드 데이터로 가공(예를 들어, 디코딩 또는 복원)하여 렌더링할 수 있다. 이러한 과정들을 통해 포인트 클라우드 콘텐트가 사용자에게 제공될 수 있으며, 본 개시는 이러한 일련의 과정들을 효과적으로 수행하기 위해 필요한 다양한 실시예들을 제공할 수 있다.

도 1에 예시된 바와 같이, 전송 장치(10)는 획득부(11), 부호화부(12), 인캡슐레이션 처리부(13) 및 전송부(14)를 포함할 수 있으며, 수신 장치(20)는 수신부(21), 디캡슐레이션 처리부(22), 복호화부(23) 및 렌더링부(24)를 포함할 수 있다.

획득부(11)는 캡쳐, 합성 또는 생성 과정 등을 통해 포인트 클라우드 비디오를 획득하는 과정(S20)을 수행할 수 있다. 따라서, 획득부(11)는 '포인트 클라우드 비디오 획득부(point cloud video acquisition)'로 지칭될 수 있다.

획득 과정(S20)에 의해 다수의 포인트들에 대한 포인트 클라우드 데이터(지오메트리 및/또는 어트리뷰트 등) 등이 생성될 수 있다. 또한, 획득 과정(S20)을 통해, 포인트 클라우드 비디오의 획득에 관련된 메타 데이터가 생성될 수 있다. 또한, 획득 과정(S20)에 의해 포인트 클라우드들 간의 연결 정보를 나타내는 메쉬(mesh) 데이터(예를 들어, 삼각형 형태의 데이터)가 생성될 수도 있다.

메타 데이터는 이니셜 뷰잉 오리엔테이션 메타 데이터(initial viewing orientation metadata)를 포함할 수 있다. 이니셜 뷰잉 오리엔테이션 메타 데이터는 포인트 클라우드 데이터가 앞을 나타내는 데이터인지 아니면 뒤를 나타내는 데이터인지를 지시할 수 있다. 메타 데이터는 포인트 클라우드에 대한 메타 데이터인 “보조(auxiliary) 데이터”로 지칭될 수 있다.

획득된 포인트 클라우드 비디오에는 PLY(polygon file format or the stanford triangle format) 파일이 포함될 수 있다. 포인트 클라우드 비디오는 하나 이상의 프레임들을 가지므로, 획득된 포인트 클라우드 비디오에는 하나 이상의 PLY 파일들이 포함될 수 있다. PLY 파일은 각 포인트들의 포인트 클라우드 데이터를 포함할 수 있다.

포인트 클라우드 비디오(또는, 포인트 클라우드 데이터)의 획득을 위해서, 획득부(11)는 깊이(depth, 깊이 정보)를 획득할 수 있는 카메라 장비와 깊이 정보에 대응되는 색상 정보를 추출할 수 있는 RGB 카메라들의 조합으로 구성될 수 있다. 여기서, 깊이 정보를 획득할 수 있는 카메라 장비는 적외선 패턴 프로젝터와 적외선 카메라의 조합일 수 있다. 또한, 획득부(11)는 라이다(LiDAR)로 구성될 수도 있는 데, 라이다는 레이저 펄스를 쏘고 반사되어 돌아오는 시간을 측정하여 반사체의 위치 좌표를 측정하는 레이더 시스템을 이용할 수 있다.

획득부(110)는 깊이 정보로부터 3차원 공간상의 포인트들로 구성된 지오메트리의 형태를 추출하고, RGB 정보로부터 각 포인트들의 색상이나 반사 등을 표현하는 어트리뷰트를 추출할 수 있다.

포인트 클라우드 비디오(또는, 포인트 클라우드 데이터)를 추출(또는, 캡쳐, 획득 등)하는 방식으로는, 중심 객체를 캡쳐하는 인워드-페이싱(inward-facing) 방식과, 외부 환경을 캡쳐하는 아웃워드-페이싱(outward-facing) 방식이 있을 수 있다. 인워드-페이싱 방식과 아웃워드-페이싱 방식에 대한 예시가 도 3에 나타나 있다. 도 3의 (a)는 인워드-페이싱 방식에 대한 예시이며, 도 3의 (b)는 아웃워드-페이싱 방식에 대한 예시이다.

도 3의 (a)에 예시된 바와 같이, 인워드-페이싱 방식은 자율 주행과 같이 자동차에서 현재 주변 환경을 포인트 클라우드 콘텐트로 구성할 경우에 사용될 수 있다. 도 3의 (b)에 예시된 바와 같이, 아웃워드-페이싱 방식은 VR/AR 환경에서 캐릭터, 선수, 물건, 배우 등과 같은 핵심이 되는 객체를 360도로 사용자가 자유롭게 볼 수 있는 포인트 클라우드 콘텐트로 구성할 경우에 사용될 수 있다. 여러 대의 카메라를 통해 포인트 클라우드 콘텐트를 구성하는 경우에는 카메라들 사이의 글로벌 공간 좌표계(global coordinate system)를 설정하기 위해, 콘텐트를 캡쳐하기 전에 카메라를 캘리브레이션하는 과정이 수행될 수도 있다. 캡쳐된 포인트 클라우드 비디오를 기반으로 하여 임의의 포인트 클라우드 비디오를 합성하는 방식이 활용될 수도 있다.

한편, 컴퓨터로 생성된 가상의 공간에 대한 포인트 클라우드 비디오를 제공하고자 하는 경우에는, 실제 카메라를 통한 캡쳐가 수행되지 않을 수 있다. 이 경우, 캡쳐된 포인트 클라우드 콘텐트의 질을 향상시키기 위한 후처리가 필요할 수도 있다. 예를 들어, 획득 과정(S20)에서 카메라 장비가 제공하는 범위에서 최대/최소 깊이 값을 조정할 수 있지만, 원하지 않는 영역(예를 들어, 배경) 또는 원하지 않는 영역의 포인트 데이터들을 제거하는 후처리가 수행되거나, 연결된 공간을 인식하고 구멍(spatial hole)을 메우는 후처리가 수행될 수도 있다. 다른 예로, 공간 좌표계를 공유하는 카메라들로부터 추출된 포인트 클라우드 데이터를 각 카메라의 위치 좌표를 기준으로 각 포인트들에 대한 글로벌 좌표계로의 변환 과정을 통해 하나의 콘텐트로 통합하는 후처리가 수행될 수 있다. 이를 통해, 하나의 넓은 범위의 포인트 클라우드 컨텐트가 생성될 수도 있고, 또는 포인트들의 밀도가 높은 포인트 클라우드 컨텐트가 획득될 수도 있다.

부호화부(12)는 획득부(11)로부터 생성된 데이터들(지오메트리, 어트리뷰트 및/또는 메타 데이터 및/또는 메쉬 데이터 등)을 하나 이상의 비트스트림으로 인코딩하는 인코딩 과정(S21)을 수행할 수 있다. 따라서, 부호화부(12)는 '포인트 클라우드 비디오 인코더(point cloud video encoder)'로 지칭될 수 있다. 부호화부(12)는 획득부(11)로부터 생성된 데이터들을 직렬적 또는 병렬적으로 인코딩할 수 있다.

부호화부(12)가 수행하는 인코딩 과정(S21)은 지오메트리 기반 포인트 클라우드 압축(geometry-based point cloud compression, G-PCC)일 수 있다. 부호화부(12)는 압축 및 코딩 효율을 위하여 예측, 변환, 양자화, 엔트로피 코딩 등의 일련의 절차를 수행할 수 있다.

인코딩된 포인트 클라우드 데이터는 비트스트림 형태로 출력될 수 있다. G-PCC 절차에 기반하는 경우, 부호화부(12)는 포인트 클라우드 데이터를 후술하는 바와 같이 지오메트리 및 어트리뷰트로 나누어 인코딩할 수 있다. 이 경우, 출력되는 비트스트림은 인코딩된 지오메트리를 포함하는 지오메트리 비트스트림 및 인코딩된 어트리뷰트를 포함하는 어트리뷰트 비트스트림을 포함할 수 있다. 또한, 출력되는 비트스트림은 메타 데이터를 포함하는 메타 데이터 비트스트림, 보조 데이터를 포함하는 보조 비트스트림, 및 메쉬 데이터를 포함하는 메쉬 데이터 비트스트림 중에서 하나 이상을 더 포함할 수도 있다. 인코딩 과정(S21)에 대해서는 아래에서 더욱 상세하게 설명하도록 한다. 인코딩된 포인트 클라우드 데이터를 포함하는 비트스트림은 '포인트 클라우드 비트스트림' 또는 '포인트 클라우드 비디오 비트스트림'으로 지칭될 수 있다.

인캡슐레이션 처리부(13)는 복호화부(12)로부터 출력된 하나 이상의 비트스트림들을 파일 또는 세그먼트(segment) 등의 형태로 인캡슐레이션하는 과정을 수행할 수 있다. 따라서, 인캡슐레이션 처리부(13)는 '파일/세그먼트 인캡슐레이션 모듈(file/segment encapsulation module)'로 지칭될 수 있다. 도면에는 인캡슐레이션 처리부(13)가 전송부(14)와의 관계에서 별도의 컴포넌트/모듈로 구성되는 예시가 표현되어 있으나, 실시예들에 따라, 인캡슐레이션 처리부(13)는 전송부(14)에 포함될 수도 있다.

인캡슐레이션 처리부(13)는 해당 데이터들을 ISOBMFF(ISO Base Media File Format) 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 실시예들에 따라, 인캡슐레이션 처리부(13)는 메타 데이터를 파일 포맷 상에 포함시킬 수 있다. 메타 데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나, 파일 내에서 별도의 트랙 내의 데이터로 포함될 수 있다. 실시예들에 따라, 인캡슐레이션 처리부(130)는 메타 데이터 자체를 파일로 인캡슐레이션할 수 있다. 인캡슐레이션 처리부(13)에 의해 처리되는 메타 데이터는 도면에는 도시되지 않은 메타 데이터 처리부 등으로부터 전달받은 것일 수 있다. 메타 데이터 처리부는 부호화부(12)에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다.

전송부(14)는 '인캡슐레이션된 포인트 클라우드 비트스트림'에 파일 포맷에 따른 처리(전송을 위한 처리)를 가하는 전송 과정(S22)을 수행할 수 있다. 전송부(140)는 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 디지털 저장매체 또는 네트워크를 통하여 수신 장치(20)의 수신부(21)로 전달할 수 있다. 따라서, 전송부(14)는 '송신기(transmitter)' 또는 '통신 모듈(communication module)' 등으로 지칭될 수 있다.

전송부(14)는 임의의 전송 프로토콜에 따라 포인트 클라우드 데이터의 처리를 수행할 수 있다. 여기서, '임의의 전송 프로토콜에 따라 포인트 클라우드 데이터를 처리하는 것'은 '전송을 위한 처리'일 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리 등이 포함될 수 있다. 실시예에 따라, 전송부(14)는 포인트 클라우드 데이터뿐만 아니라, 메타 데이터 처리부로부터 메타 데이터를 전달받아, 전달된 메타 데이터에 전송을 위한 처리를 가할 수도 있다. 실시예들에 따라, 전송을 위한 처리는 전송 처리부에서 수행될 수도 있으며, 전송 처리부는 전송부(14)에 포함되거나 전송부(14)와는 별도의 컴포넌트/모듈로 구성 수 있다.

수신부(21)는 전송 장치(10)가 전송한 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수 있다. 전송되는 채널에 따라 수신부(21)는 방송망을 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있고, 브로드밴드를 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있다. 혹은, 수신부(21)는 디지털 저장 매체를 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있다.

수신부(21)는 수신된 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신부(21)는 전송 장치(10)에서 전송을 위한 처리가 수행된 것에 대응되도록, 전송 처리(전송을 위한 처리)의 역과정을 수행할 수 있다. 수신부(21)는 수신한 데이터들 중에서, 인코딩된 포인트 클라우드 데이터를 디캡슐레이션 처리부(22)로 전달하고, 메타 데이터를 메타 데이터 파싱부로 전달할 수 있다. 메타 데이터는 시그널링 테이블의 형태일 수 있다. 실시예들에 따라, 전송을 위한 처리의 역과정은 수신 처리부에서 수행될 수 있다. 수신 처리부, 디캡슐레이션 처리부(22) 및 메타 데이터 파싱부 각각은 수신부(21)에 포함되거나 수신부(21)와는 별도의 컴포넌트/모듈로 구성될 수 있다.

디캡슐레이션 처리부(22)는 수신부(21) 또는 수신 처리부로부터 전달받은 파일 형태의 포인트 클라우드 데이터(즉, 파일 형태의 비트스트림)를 디캡슐레이션할 수 있다. 따라서, 디캡슐레이션 처리부(22)는 '파일/세그먼트 디캡슐레이션 모듈(file/segment decapsulation module)'로 지칭될 수 있다.

디캡슐레이션 처리부(22)는 ISOBMFF 등에 따라 파일들을 디캡슐레이션함으로써 포인트 클라우드 비트스트림 내지 메타 데이터 비트스트림을 획득할 수 있다. 실시예들에 따라, 메타 데이터(메타데이터 비트스트림)는 포인트 클라우드 비트스트림에 포함될 수도 있다. 획득된 포인트 클라우드 비트스트림은 복호화부(23)로 전달될 수 있으며, 획득된 메타 데이터 비트스트림은 메타 데이터 처리부로 전달될 수 있다. 메타 데이터 처리부는 복호화부(23)에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 디캡슐레이션 처리부(23)가 획득하는 메타 데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부(23)는 필요한 경우 메타 데이터 처리부로부터 디캡슐레이션에 필요한 메타 데이터를 전달받을 수도 있다. 메타 데이터는 복호화부(23)로 전달되어 디코딩 과정(S23)에 사용될 수도 있고, 또는 렌더링부(24)로 전달되어 렌더링 과정(S24)에 사용될 수도 있다.

복호화부(23)는 비트스트림을 입력 받아 부호화부(12)의 동작에 대응하는 동작을 수행함으로써, 포인트 클라우드 비트스트림(인코딩된 포인트 클라우드 데이터)을 디코딩하는 디코딩 과정(S23)을 수행할 수 있다. 따라서, 복호화부(23)는 '포인트 클라우드 비디오 디코더(point cloud video decoder)'로 지칭될 수 있다.

복호화부(23)는 포인트 클라우드 데이터를 지오메트리 및 어트리뷰트로 나누어 디코딩할 수 있다. 예를 들어, 복호화부(23)는 포인트 클라우드 비트스트림에 포함된 지오메트리 비트스트림으로부터 지오메트리를 복원(디코딩)할 수 있고, 포인트 클라우드 비트스트림에 포함된 어트리뷰트 비트스트림 및 복원된 지오메트리를 기반으로 어트리뷰트를 복원(디코딩)할 수 있다. 복원된 지오메트리에 따른 포지션 정보 및 디코딩된 어트리뷰트에 따른 어트리뷰트(컬러 또는 텍스처 등)를 기반으로 3차원의 포인트 클라우드 비디오/영상이 복원될 수 있다. 디코딩 과정(S23)에 대해서는 아래에서 더욱 상세하게 설명하도록 한다.

렌더링부(24)는 복원된 포인트 클라우드 비디오를 렌더링하는 렌더링 과정(S24)을 수행할 수 있다. 따라서, 렌더링부(24)는 '렌더러(renderer)'로 지칭될 수 있다.

렌더링 과정(S24)은 3D 공간상에 포인트 클라우드 콘텐트를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 렌더링 과정(S24)은 디코딩 과정을 통해 디코딩된 포인트들의 포지션 정보 및 어트리뷰트 정보에 기반하여 원하는 렌더링 방식에 따라 렌더링할 수 있다.

포인트 클라우드 콘텐트의 포인트들은 일정 두께를 갖는 정점, 해당 정점 위치를 중앙으로 하는 특정 최소 크기를 갖는 정육면체, 또는 정점 위치를 중앙으로 하는 원 등으로 렌더링될 수도 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링된 결과의 전부 또는 일부 영역을 볼 수 있다. 렌더링된 비디오는 디스플레이부를 통하여 디스플레이될 수 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링된 결과의 전부 또는 일부 영역을 볼 수 있다.

피드백 과정(S25)은 렌더링 과정(S24) 또는 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 전송 장치(10)로 전달하거나 수신 장치(20) 내 다른 구성들로 전달하는 과정을 포함할 수 있다. 피드백 과정(S25)은 도 1의 수신 장치(20)에 포함된 구성들 중에서 하나 이상에 의해 수행되거나, 또는 도 10 및 도 11에 표현된 구성들 중에서 하나 이상에 의해 수행될 수 있다. 실시예들에 따라, 피드백 과정(S25)은 '피드백부' 또는 '센싱/트랙킹부(sensing/tracking)'에 의해 수행될 수도 있다.

피드백 과정(S25)을 통해 포인트 클라우드 컨텐트 소비에 대한 인터랙티비티(interactivity)가 제공될 수 있다. 실시예들에 따라, 피드백 과정(S25)에서 헤드 오리엔테이션(head orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(viewport) 정보 등이 피드백될 수 있다. 실시예들에 따라, 사용자는 VR/AR/MR/자율주행 환경 상에 구현된 것들과 상호 작용할 수도 있는 데, 이 경우 그 상호 작용과 관련된 정보가 피드백 과정(S25)에서 전송 장치(10) 내지 서비스 프로바이더측으로 전달될 수도 있다. 실시예들에 따라, 피드백 과정(S25)은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 포인트 클라우드 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트(viewport) 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 포인트 클라우드 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 시점(viewpoint)은 사용자가 포인트 클라우드 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 FOV(field of view)에 의해 결정될 수 있다. 뷰포트 정보를 이용한 게이즈 분석(gaze analysis)을 통해, 사용자가 어떠한 방식으로 포인트 클라우드 비디오를 소비하는 지, 포인트 클라우드 비디오의 어느 영역을 얼마나 응시하는지 등이 확인될 수 있다. 게이즈 분석은 수신측(수신 장치)에서 수행되어 송신측(전송 장치)으로 피드백 채널을 통해 전달될 수도 있다. VR/AR/MR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예들에 따라, 피드백 정보는 송신측(전송 장치)으로 전달되는 것뿐 아니라, 수신측(수신 장치)에서 소비될 수도 있다. 즉, 피드백 정보를 이용하여 수신측(수신 장치)의 디코딩 과정, 렌더링 과정 등이 수행될 수 있다.

예를 들어, 수신 장치(20)는 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 포인트 클라우드 비디오만 우선적으로 디코딩 및 렌더링할 수도 있다. 또한, 수신부(21)는 모든 포인트 클라우드 데이터를 수신하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 수신할 수도 있다. 또한, 디캡슐레이션 처리부(22)는 모든 포인트 클라우드 데이터를 디캡슐레이션하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디캡슐레이션할 수도 있다. 또한, 복호화부(23)는 모든 포인트 클라우드 데이터를 디코딩하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디코딩할 수도 있다.

포인트 클라우드 부호화 장치의 개요

도 4는 본 개시의 실시예들에 따른 포인트 클라우드 부호화 장치(400)의 예시를 나타낸다. 도 4의 포인트 클라우드 부호화 장치(400)는 도 1의 부호화부(12)와 구성 및 기능에서 대응될 수 있다.

도 4에 예시된 바와 같이, 포인트 클라우드 부호화 장치(400)는 좌표계 변환부(405), 지오메트리 양자화부(410), 옥트리 분석부(415), 근사화부(420), 지오메트리 인코딩부(425), 복원부(430), 어트리뷰트 변환부(440), RAHT 변환부(445), LOD 생성부(450), 리프팅부(455), 어트리뷰트 양자화부(460), 어트리뷰트 인코딩부(465) 및/또는 컬러 변환부(435)를 포함할 수 있다.

획득부(11)에 의해 획득된 포인트 클라우드 데이터는 네트워크의 상황 혹은 애플리케이션 등에 따라 포인트 클라우드 콘텐트의 질(예를 들어, 무손실-lossless, 손실-lossy, near-lossless)을 조절하기 위한 과정들을 거칠 수 있다. 또한, 획득된 포인트 클라우드 콘텐트의 각 포인트들을 손실 없이 전송할 수도 있지만, 그럴 경우 포인트 클라우드 콘텐트의 크기가 크기 때문에 실시간 스트리밍이 가능하지 않을 수 있다. 따라서, 포인트 클라우드 콘텐트의 원활한 제공을 위하여, 최대 타깃 비트율(bitrate)에 맞추어 포인트 클라우드 콘텐트를 재구성하는 과정이 필요하다.

포인트 클라우드 콘텐트의 질을 조절하기 위한 과정들은 포인트들의 위치 정보(지오메트리 정보에 포함된 포지션 정보) 또는 색상 정보(어트리뷰트 정보에 포함된 컬러 정보)를 재구성하는 과정과 인코딩하는 과정 등일 수 있다. 포인트들의 포지션 정보를 재구성 및 인코딩하는 과정을 지오메트리 코딩이라 지칭하고, 각 포인트들과 연관된 어트리뷰트 정보를 재구성 및 인코딩하는 과정을 어트리뷰트 코딩이라고 지칭할 수 있다.

지오메트리 코딩은 지오메트리 양자화 과정, 복셀화 과정, 옥트리 분석 과정, 근사화 과정, 지오메트리 인코딩 과정 및/또는 좌표계 변환 과정을 포함할 수 있다. 또한, 지오메트리 코딩은 지오메트리 복원 과정을 더 포함할 수 있다. 어트리뷰트 코딩은 색상 변환 과정, 어트리뷰트 변환 과정, 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정, 어트리뷰트 양자화 과정, 어트리뷰트 인코딩 과정 등을 포함할 수 있다.

지오메트리 코딩

좌표계 변환 과정은 포인트들의 포지션들에 대한 좌표계(coordinate)를 변환하는 과정에 해당할 수 있다. 따라서, 좌표계 변환 과정은 'transform coordinates'로 지칭될 수 있다. 좌표계 변환 과정은 좌표계 변환부(405)에 의해 수행될 수 있다. 예를 들어, 좌표계 변환부(405)는 포인트들의 포지션을 글로벌 공간 좌표계로부터 3차원 공간(예를 들어, X축, Y축 및 Z축 좌표계로 표현되는 3차원 공간 등)의 포지션 정보로 변환할 수 있다. 실시예들에 따른 3차원 공간의 포지션 정보는 '지오메트리 정보'로 지칭될 수 있다.

지오메트리 양자화 과정은 포인트들의 포지션 정보를 양자화하는 과정에 해당할 수 있으며, 지오메트리 양자화부(410)에 의해 수행될 수 있다. 예를 들어, 지오메트리 양자화부(410)는 포인트들의 포지션 정보들 중에서 최소의 (x, y, z) 값을 가지는 포지션 정보를 찾고, 각 포인트들의 포지션 정보들로부터 최소의 (x, y, z) 값을 가지는 포지션 정보를 차감할 수 있다. 또한, 지오메트리 양자화부(410)는 차감된 값에 미리 설정된 양자 스케일(quantization scale) 값을 곱한 후에, 그 결과를 가까운 정수(integer) 값으로 조정(내리거나 올려)함으로써, 양자화 과정을 수행할 수 있다.

복셀화 과정은 양자화 과정을 통해 양자화된 지오메트리 정보를 3차원 공간 상에 존재하는 특정 복셀(voxel)로 매칭하는 과정에 해당할 수 있다. 복셀화 과정 또한 지오메트리 양자화부(410)에 의해 수행될 수 있다. 지오메트리 양자화부(410)는 양자화 과정이 적용된 각 포인트들을 재구성하기 위해, 포인트들의 포지션 정보를 기반으로 옥트리(octree) 기반 복셀화(voxelization)를 수행할 수 있다.

본 개시의 실시예들에 따른 복셀의 예시가 도 5에 나타나 있다. 복셀은 2차원 이미지/비디오의 정보를 가지고 있는 최소 단위인 픽셀(pixel)과 마찬가지로, 3차원에 존재하는 포인트들의 정보를 저장하기 위한 공간을 의미할 수 있다. 복셀은 볼륨(volume)과 픽셀(pixel)을 조합한 혼성어이다. 도 5에 예시된 바와 같이, 복셀은 3차원 공간 (2depth, 2depth, 2depth)을 각각의 축(x축, y축 및 z축)을 기반으로 유닛(unit=1.0)이 되도록 나누어 생기는 3차원 큐빅(cubic) 공간을 의미할 수 있다. 복셀은 복셀군(voxel group)과의 위치 관계에서 공간 좌표를 추정할 수 있으며, 픽셀과 마찬가지로 색상 또는 반사율 정보를 가지고 있을 수 있다.

하나의 복셀에 하나의 포인트만 존재(매칭)하지 않을 수도 있다. 즉, 하나의 복셀에 여러 개의 포인트들에 관련된 정보가 존재할 수 있다. 또는, 하나의 복셀에 포함된 여러 개의 포인트들에 관련된 정보를 하나의 포인트 정보로 통합할 수도 있다. 이러한 조절은 선택적으로 수행될 수 있다. 하나의 복셀에 하나의 포인트 정보로 통합하여 표현하는 경우, 복셀 내에 존재하는 포인트들에 대한 포지션 값을 기반으로 복셀의 중앙점의 포지션 값이 설정될 수 있으며, 이와 연관된 어트리뷰트 변환 과정을 수행할 필요가 있다. 예를 들어, 어트리뷰트 변환 과정은 복셀에 포함된 포인트들 또는 복셀의 중앙점의 포지션 값과 특정 반경 내에 이웃하고 있는 포인트들의 색상 또는 반사율의 평균 값으로 조정될 수도 있다.

옥트리 분석부(415)는 복셀의 영역/포지션을 효율적으로 관리하기 위해, 옥트리를 사용할 수 있다. 본 개시의 실시예들에 따른 옥트리의 예시가 도 6의 (a)에 나타나 있다. 2차원 이미지의 공간을 효율적으로 관리하기 위해서 전체 공간을 x축 및 y축 기반으로 나누면 4개의 공간이 생기고, 4개의 각각의 공간을 다시 x축 및 y축 기반으로 나누면 다시 각각의 작은 공간에 대해서 4개의 공간이 생기게 된다. 리프 노드(leaf node)가 픽셀이 될 때까지 영역을 나눠주고, 영역의 크기 및 위치 별로 효율적으로 관리하기 위해 쿼드트리(quadtree)를 자료구조로 사용할 수 있다.

이와 마찬가지로, 본 개시는 3차원 공간을 공간의 위치 및 크기 별로 효율적으로 관리하기 위해 같은 방식을 적용할 수 있다. 단, 도 6의 (a)의 중간에 예시된 바와 같이, z축이 추가되기 때문에, 3차원 공간을 x축, y축 및 z축 기반으로 나누면 8개의 공간이 생길 수 있다. 또한, 도 6의 (a)의 우측에 예시된 바와 같이, 8개의 각각의 공간을 다시 x축, y축 및 z축 기반으로 나누면 다시 각각의 작은 공간에 대해서 8개의 공간이 생길 수 있다.

옥트리 분석부(415)는 리프 노드가 복셀이 될 때까지 영역을 나눠주고, 영역의 크기 및 포지션 별로 효율적으로 관리하기 위해 8개의 자식 노드(children node) 영역을 관리할 수 있는 옥트리(octree) 자료구조를 사용할 수 있다.

옥트리를 사용하여 포인트들의 포지션이 반영된 복셀을 관리하기 때문에 옥트리의 전체 볼륨은 (0,0,0) ~ (2d, 2d, 2d)로 설정되어야 한다. 2d는 포인트 클라우드의 전체 포인트를 감싸는 가장 작은 바운딩 박스를 구성하는 값으로 설정되고, d는 옥트리의 깊이(depth)가 된다. d값을 구하는 식은 아래의 수식 1과 같을 수 있으며,

는 양자화 과정이 적용된 포인트들의 포지션 값이다.

[수식 1]

옥트리는 오큐판시(occupancy) 코드로 표현될 수 있으며, 본 개시의 실시예들에 따른 오큐판시 코드의 예시가 도 6의 (b)에 나타나 있다. 옥트리 분석부(415)는 각 노드 내에 포인트가 포함되어 있으면 해당 노드의 오큐판시 코드를 1로 표현하고, 포인트가 포함되어 있지 않으면 해당 노드의 오큐판시 코드를 0으로 표현할 수 있다.

각 노드는 8개의 자식 노드에 대한 오큐판시 여부를 나타내는 8bit의 비트맵(bitmap)을 가질 수 있다. 예를 들어, 도 6의 (b)의 두 번째 뎁스(1-depth)에 해당하는 노드들의 오큐판시 코드가 00100001이므로, 3번째 노드와 8번째 노드에 대응하는 공간(복셀 또는 영역)들은 적어도 하나의 포인트를 포함할 수 있다. 또한, 3번째 노드의 자식 노드들(리프 노드들)의 오큐판시 코드가 10000111이므로, 해당 리프 노드들 중에서 첫 번째 리프 노드, 여섯 번째 리프 노드, 일곱 번째 리프 노드 및 여덣 번째 리프 노드에 대응하는 공간들은 적어도 하나의 포인트를 포함할 수 있다. 또한, 8번째 노드의 자식 노드들(리프 노드들)의 오큐판시 코드가 01001111이므로, 해당 리프 노드들 중에서 두 번째 리프 노드, 다섯 번째 리프 노드, 여섯 번째 리프 노드, 일곱 번째 리프 노드 및 여덣 번째 리프 노드에 대응하는 공간들이 적어도 하나의 포인트를 포함할 수 있다.

지오메트리 인코딩 과정은 오큐판시 코드에 대해 엔트로피 코딩을 수행하는 과정에 해당할 수 있다. 지오메트리 인코딩 과정은 지오메트리 인코딩부(425)에 의해 수행될 수 있다. 지오메트리 인코딩부(425)는 오큐판시 코드에 대한 엔트로피 코딩을 수행할 수 있다. 생성된 오큐판시 코드는 바로 인코딩될 수도 있고, 압축 효율을 높이기 위해 인트라/인터 코딩 과정을 통해서 인코딩될 수도 있다. 수신 장치(20)는 오큐판시 코드를 통해서 옥트리를 재구성할 수 있다.

한편, 포인트들이 없거나 매우 적은 특정 영역의 경우, 모든 영역을 복셀화 시키는 것은 비효율적일 수도 있다. 즉, 특정 영역에는 포인트들이 거의 존재하지 않으므로, 전체 옥트리를 구성할 필요가 없을 수 있다. 이러한 경우를 위해, 조기 종료(early termination) 방안이 필요할 수 있다.

포인트 클라우드 부호화 장치(400)는 특정 영역(리프 노드에 해당하지 않는 특정 영역)에 대해, 이 특정 영역에 대응하는 노드(특정 노드)를 8개의 서브 노드들(자식 노드들)로 나누는 대신에, 해당 특정 영역에 대해서만 직접 포인트들의 위치를 전송하거나, 또는 표면 모델(surface model)을 사용하여 특정 영역 내의 포인트의 포지션을 복셀 기반으로 재구성할 수 있다.

특정 노드에 대해서 직접 각 포인트들의 위치를 전송하는 모드는 직접 모드(direct mode)일 수 있다. 포인트 클라우드 부호화 장치(400)는 직접 모드를 가능하게 하기 위한 조건들의 만족 여부를 체크할 수 있다.

직접 모드를 가능하게 하기 위한 조건은 1) 직접 모드 사용 옵션이 활성화되어 있어야 함, 2) 해당 특정 노드가 리프 노드에 해당하지 않음, 3) 해당 특정 노드 내에 한계치(threshold) 이하의 포인트들이 존재해야 함, 및 4) 직접 전송하고자 하는 포인트들의 총 개수가 한계치를 넘지 않음을 포함할 수 있다.

포인트 클라우드 부호화 장치(400)는 위 조건들이 모두 만족하는 경우에 해당 특정 노드에 대해서 직접적으로 포인트의 포지션 값을 지오메트리 인코딩부(425)를 통해 엔트로피 코딩하여 전송할 수 있다.

표면 모델을 사용하여 특정 영역 내의 포인트의 위치를 복셀 기반으로 재구성하는 모드는 트리숩 모드(trisoup mode)일 수 있다. 트리숩 모드는 근사화부(420)에 의해 수행될 수 있다. 근사화부(420)는 옥트리의 특정 레벨을 정하고, 정한 특정 레벨부터는 표면 모델을 사용하여 노드 영역 내의 포인트들의 위치를 복셀 기반으로 재구성할 수 있다.

포인트 클라우드 부호화 장치(400)는 트리숩 모드를 선택적으로 적용할 수도 있다. 구체적으로, 포인트 클라우드 부호화 장치(400)는 트리숩 모드 사용 시에, 트리숩 모드가 적용될 레벨(특정 레벨)을 지정할 수 있다. 예를 들어, 지정된 특정 레벨이 옥트리의 깊이(d)와 같으면 트리숩 모드가 적용되지 않을 수 있다. 즉, 지정된 특정 레벨은 옥트리의 깊이 값보다 작아야 한다.

지정된 특정 레벨의 노드들의 3차원 정육면체 영역을 블록(block)이라고 하며, 하나의 블록은 하나 이상의 복셀을 포함할 수 있다. 블록 또는 복셀은 브릭(brick)에 대응될 수도 있다. 각 블록은 12개의 엣지(edge)를 가지고 있을 수 있으며, 근사화부(420)는 각 엣지가 포인트를 가진 복셀(occupied voxel)과 인접했는지 여부에 체크할 수 있다. 각 엣지는 여러 개의 점유된(occupied) 복셀들과 인접할 수 있다. 복셀과 인접한 엣지의 특정 위치를 버텍스(vertex)라고 하며, 근사화부(420)는 하나의 엣지에 여러 개의 점유된 복셀들이 인접한 경우에는 해당 위치들의 평균 위치를 버텍스로 정할 수 있다.

포인트 클라우드 부호화 장치(400)는 버텍스가 존재하는 경우에, 엣지의 시작점 (x, y, z), 엣지의 방향벡터 (△x, △y, △z) 및, 버텍스의 위치 값(엣지 내의 상대적 위치 값)들을 지오메트리 인코딩부(425)를 통해 엔트로피 코딩할 수 있다.

지오메트리 복원 과정은 옥트리 및/또는 근사화된 옥트리를 재구성하여 복원된 지오메트리를 생성하는 과정에 해당할 수 있다. 지오메트리 복원 과정은 복원부(430)에 의해 수행될 수 있다. 복원부(430)는 삼각형 재구성(triangle reconstruction), 업-샘플링(up-sampling), 복셀화 과정 등을 통하여 지오메트리 복원 과정을 수행할 수 있다.

근사화부(420)에서 트리숩 모드가 적용된 경우에, 복원부(430)는 엣지의 시작점, 엣지의 방향 벡터와 버텍스의 위치 값을 기반으로 삼각형을 재구성할 수 있다. 이를 위해, 복원부(430)는 아래의 수식 2와 같이 각 버텍스들의 중심(centroid) 값

을 계산하고, 아래의 수식 3과 같이 각 버텍스들의 값

에서 중심 값을 차감하여 차감 값

을 유도한 후에, 아래 수식 4와 같이 차감 값들의 자승을 모두 더한 값

을 도출할 수 있다.

[수식 2]

[수식 3]

[수식 4]

또한, 복원부(430)는 더해진 값의 최소 값을 구하고, 최소 값이 있는 축을 따라서 프로젝션 과정을 수행할 수 있다.

예를 들어, 복원부(430)는 x 요소(element)가 최소인 경우, 각 버텍스들을 블록의 중심을 기준으로 x축으로 프로젝션시키고, (y, z) 평면으로 프로젝션시킬 수 있다. 또한, 복원부(430)는 (y, z) 평면으로 프로젝션시켜 도출되는 값이 (ai, bi)라면 atan2(bi, ai)를 통해 θ 값을 구하고, θ 값을 기준으로 버텍스들을 정렬할 수 있다.

버텍스들의 수에 따라서 삼각형을 재구성하는 방식은 정렬된 순서에 맞춰서 아래의 표 1과 같이 조합하여 삼각형들을 생성할 수 있다. 예를 들어, 4개의 버텍스들이 존재한다면(n=4), 두 개의 삼각형들 (1, 2, 3), (3, 4, 1)이 구성될 수 있다. 첫 번째 삼각형 (1, 2, 3)은 정렬된 버텍스들로부터 첫 번째, 두 번째 및 세 번째 버텍스들로 구성될 수 있으며, 두 번째 삼각형 (3, 4, 1)은 세 번째, 네 번째 및 첫 번째 버텍스들로 구성될 수 있다.

Triangles formed from vertices ordered 1,…,n

n	triangles
3	(1,2,3)
4	(1,2,3), (3,4,1)
5	(1,2,3), (3,4,5), (5,1,3)
6	(1,2,3), (3,4,5), (5,6,1), (1,3,5)
7	(1,2,3), (3,4,5), (5,6,7), (7,1,3), (3,5,7)
8	(1,2,3), (3,4,5), (5,6,7), (7,8,1), (1,3,5), (5,7,1)
9	(1,2,3), (3,4,5), (5,6,7), (7,8,9), (9,1,3), (3,5,7), (7,9,3)
10	(1,2,3), (3,4,5), (5,6,7), (7,8,9), (9,10,1), (1,3,5), (5,7,9), (9,1,5)
11	(1,2,3), (3,4,5), (5,6,7), (7,8,9), (9,10,11), (11,1,3), (3,5,7), (7,9,11), (11,3,7)
12	(1,2,3), (3,4,5), (5,6,7), (7,8,9), (9,10,11), (11,12,1), (1,3,5), (5,7,9), (9,11,1), (1,5,9)

복원부(430)는 삼각형의 엣지를 따라서 중간에 포인트들을 추가하여 복셀화하기 위해서 업샘플링 과정을 수행할 수 있다. 복원부(430)는 업샘플링 요소 값(upsampling factor)과 블록의 너비를 기준으로 추가 포인트들을 생성할 수 있다. 이러한 포인트들은 refined 버텍스들이라 할 수 있다. 복원부(430)는 refined 버텍스들을 복셀화할 수 있으며, 포인트 클라우드 부호화 장치(400)는 복셀화된 위치 값을 기준으로 어트리뷰트 코딩을 수행할 수 있다.

실시예들에 따라, 지오메트리 인코딩부(425)는 컨텍스트 적응적 산술(context adaptive arithmetic) 코딩을 적용하여 압축 효율을 높일 수 있다. 지오메트리 인코딩부(425)는 산술 코드를 사용하여 오큐판시 코드를 바로 엔트로피 코딩할 수 있다. 실시예들에 따라, 지오메트리 인코딩부(425)는 주변 이웃 노드들의 오큐판시 여부를 기반으로 적응적으로 인코딩을 수행하거나(인트라 코딩) 또는, 이전 프레임의 오큐판시 코드를 기반으로 적응적으로 인코딩을 수행할 수도 있다(인터 코딩). 여기서, 프레임은 같은 시간에 생성된 포인트 클라우드 데이터의 집합을 의미할 수 있다. 인트라 코딩과 인터 코딩은 선택적(optional) 과정이므로, 생략될 수도 있다.

몇 개의 이웃 노드들을 참조하는 지에 따라 압축 효율이 달라질 수 있으며, 비트가 커지면 인코딩 과정이 복잡해지지만 한쪽으로 치우치게 만들어서 압축 효율이 높아질 수도 있다. 예를 들어, 3-bit 컨텍스트를 가지면, 23 = 8가지로 나누어 코딩해야 할 수도 있다. 나누어 코딩을 하는 부분은 구현의 복잡도에 영향을 줄 수 있으므로, 압축의 효율과 복잡도의 적정 수준을 맞출 필요가 있다.

인트라 코딩의 경우에, 지오메트리 인코딩부(425)는 우선 이웃 노드들의 오큐판시 여부를 이용하여 이웃 노드 패턴(neighbor pattern) 값을 구할 수 있다. 이웃 노드들의 패턴에 대한 예시가 도 7에 나타나 있다.

도 7의 (a)는 노드에 대응하는 큐브(가운데 위치한 큐브) 및 해당 큐브와 적어도 하나의 면을 공유하는 6개의 큐브들(이웃 노드들)을 나타낸다. 도면에 도시된 노드들은 같은 뎁스(깊이)의 노드들이다. 도면에 도시된 숫자는 6개의 노드들 각각과 연관된 가중치들(1, 2, 4, 8, 16, 32, 등)을 나타낸다. 각 가중치는 이웃 노드들의 위치에 따라 순차적으로 부여된다.

도 7의 (b)는 이웃 노드 패턴 값을 나타낸다. 이웃 노드 패턴 값은 점유된(occupied) 이웃 노드(포인트를 갖는 이웃 노드)의 가중치가 곱해진 값들의 합이다. 따라서, 이웃 노드 패턴 값은 0에서 63까지의 값을 가질 수 있다. 이웃 노드 패턴 값이 0인 경우, 해당 노드의 이웃 노드 중 포인트를 갖는 노드(점유된 노드)가 없음을 나타낸다. 이웃 노드 패턴 값이 63인 경우, 이웃 노드들이 전부 점유된 노드들임을 나타낸다. 도 7의 (b)에서, 가중치 1, 2, 4, 8이 부여된 이웃 노드들이 점유된 노드들이므로, 이웃 노드 패턴 값은 1, 2, 4, 8을 더한 값인 15이다.

지오메트리 인코딩부(425)는 이웃 노드 패턴 값에 따라 코딩을 수행할 수 있다. 예를 들어, 이웃 노드 패턴 값이 63인 경우, 지오메트리 인코딩부(425)는 64가지의 코딩을 수행할 수 있다. 실시예들에 따라, 지오메트리 인코딩부(425)는 이웃 노드 패턴 값을 변경하여 코딩의 복잡도를 줄일 수 있으며, 예를 들어, 이웃 노드 패턴 값의 변경은 64를 10 또는 6으로 변경하는 테이블을 기반으로 수행될 수 있다.

어트리뷰트 코딩

어트리뷰트 코딩은 복원된(재구성된) 지오메트리와 좌표계 변환 전의 지오메트리(원본 지오메트리)에 기반하여 어트리뷰트 정보를 코딩하는 과정에 해당할 수 있다. 어트리뷰트는 지오메트리에 종속적일 수 있으므로, 어트리뷰트 코딩에 복원된 지오메트리가 활용될 수 있다.

앞서 설명된 바와 같이, 어트리뷰트는 색상, 반사율 등을 포함할 수 있다. 어트리뷰트에 포함된 정보 또는 파라미터에 대해 같은 어트리뷰트 코딩 방법이 적용될 수 있다. 색상은 3개의 요소를 가지고 반사율은 1개의 요소를 가지며, 각 요소마다 독립적으로 처리될 수 있다.

어트리뷰트 코딩은 색상 변환 과정, 어트리뷰트 변환 과정, 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정, 어트리뷰트 양자화 과정, 어트리뷰트 인코딩 과정 등을 포함할 수 있다. 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정은 선택적으로 사용되거나, 하나 또는 그 이상의 조합이 사용될 수 있다.

색상 변환 과정은 어트리뷰트 내 색상의 포맷을 다른 포맷으로 변환하는 과정에 해당할 수 있다. 색상 변환 과정은 컬러 변환부(435)에 의해 수행될 수 있다. 즉, 컬러 변환부(435)는 어트리뷰트 내 색상을 변환할 수 있다. 예를 들어, 컬러 변환부(435)는 어트리뷰트 내 색상을 RGB로부터 YCbCr로 변환하는 코딩 작업을 수행할 수 있다. 실시예들에 따라, 컬러 변환부(435)의 동작, 즉 색상 변환 과정은 어트리뷰트에 포함된 색상 값에 따라 옵셔널(optional)하게 적용될 수 있다.

앞서 설명된 바와 같이, 하나의 복셀에 하나 또는 그 이상의 포인트들이 존재하는 경우에, 이들을 해당 복셀에 대한 하나의 포인트 정보로 통합하여 나타내기 위해 복셀 내에 존재하는 포인트들에 대한 위치 값이 복셀의 중앙점으로 설정될 수 있다. 이에 따라, 해당 포인트들에 연관된 어트리뷰트들의 값을 변환하는 과정이 필요할 수 있다. 또한, 트리숩 모드가 수행된 경우에도 어트리뷰트 변환 과정이 수행될 수 있다.

어트리뷰트 변환 과정은 지오메트리 코딩이 수행되지 않은 포지션 및/또는 재구성된 지오메트리에 기반하여 어트리뷰트를 변환하는 과정에 해당할 수 있다. 예를 들어, 어트리뷰트 변환 과정은 복셀에 포함된 포인트의 포지션에 기반하여 해당 포지션의 포인트가 가지는 어트리뷰트를 변환하는 과정에 해당할 수 있다. 어트리뷰트 변환 과정은 어트리뷰트 변환부(440)에 의해 수행될 수 있다.

어트리뷰트 변환부(440)는 복셀의 중앙 위치 값과 특정 반경 내에 이웃하고 있는 포인트(이웃 포인트)들의 어트리뷰트 값들의 평균 값을 계산할 수 있다. 또는, 어트리뷰트 변환부(440)는 중앙 위치와의 거리에 따른 가중치를 어트리뷰트 값들에 적용하고, 가중치가 적용된 어트리뷰트 값들의 평균 값을 계산할 수도 있다. 이 경우, 각 복셀은 위치와 계산된 어트리뷰트 값을 가지게 된다.

특정 위치 또는 반경 내에 존재하는 이웃 포인트들을 탐색 시, K-D 트리 또는 몰톤 코드가 활용될 수 있다. K-D 트리는 이진 탐색 트리(binary search tree)로서, 빠르게 최단 이웃점 탐색(nearest neighbor search, NNS)이 가능하도록 포인트들을 위치 기반으로 관리할 수 있는 자료 구조를 지원한다. 몰튼 코드는 모든 포인트들에 대한 3차원 위치 정보 (x, y, z)의 비트들을 믹싱하여 생성될 수 있다. 예를 들어, (x, y, z) 값이 (5, 9, 1)일 경우에 (5, 9, 1)을 비트로 나타내면 (0101, 1001, 0001)이 되고, 이 값을 z, y, x 순서로 비트 인덱스에 맞춰 믹싱하면 010001000111이 되며, 이 값은 1095이 된다. 즉, 1095가 (5, 9, 1)의 몰톤 코드 값이 된다. 몰튼 코드 기준으로 포인트들을 정렬하고 depth-first traversal 과정을 통해 최단 이웃점 탐색(NNS)이 가능할 수 있다.

어트리뷰트 변환 과정 이후, 어트리뷰트 코딩을 위한 다른 변환 과정에서도 최단 이웃점 탐색(NNS)이 요구되는 경우가 존재할 수 있으며, 이러한 경우에는 K-D 트리 또는 몰톤 코드가 활용될 수 있다.

예측 변환 과정은 현재 포인트(예측의 대상에 해당하는 포인트)에 이웃하는 하나 이상의 포인트들(이웃 포인트들)의 어트리뷰트 값에 기반하여 현재 포인트의 어트리뷰트 값을 예측하는 과정에 해당할 수 있다. 예측 변환 과정은 LOD(level of detail) 생성부(450)에 의해 수행될 수 있다.

예측 변환은 LOD 변환 기법이 적용된 방법으로서, LOD 생성부(450)는 각 포인트들의 LOD 거리 값을 기준으로 각 포인트들의 LOD 값을 계산하여 설정할 수 있다.

LOD 거리 값에 따른 포인트들의 구성에 대한 일 예가 도 8에 나타나 있다. 도 8에서, 화살표의 방향을 기준으로, 첫 번째 그림은 오리지널 포인트 클라우드 콘텐트를 나타내며, 두 번째 그림은 가장 낮은 LOD의 포인트들의 분포를 나타내고, 일곱 번째 그림은 가장 높은 LOD의 포인트들의 분포를 나타낸다. 도 8에 예시된 바와 같이, 가장 낮은 LOD의 포인트들은 드문드문(sparse) 분포하며, 가장 높은 LOD의 포인트들은 촘촘히 분포할 수 있다. 즉, LOD가 증가할수록 포인트들 간의 간격(또는, 거리)이 더 짧아질 수 있다.

포인트 클라우드 내에 존재하는 각 포인트들은 LOD 별로 분리될 수 있으며, LOD 별 포인트들의 구성은 해당 LOD 값보다 더 낮은 LOD에 속한 포인트들을 포함할 수 있다. 예를 들어, LOD 레벨 2를 가지는 포인트들의 구성은 LOD 레벨 1과 LOD 레벨 2에 속하는 모든 포인트들을 포함할 수 있다.

LOD 별 포인트들의 구성에 대한 일 예가 도 9에 나타나 있다. 도 9의 위쪽 그림은 3차원 공간에 분포된 포인트 클라우드 콘텐트 내 포인트들의 예시(P0 내지 P9)를 나타낸다. 도 9의 오리지널 오더(Original order)는 LOD 생성 전 포인트들 P0 내지 P9의 순서를 나타내며, 도 9의 LOD 기반 오더(LOD-based order)는 LOD 생성에 따른 포인트들의 순서를 나타낸다.

도 9에 예시된 바와 같이, 포인트들은 LOD 별로 재정렬될 수 있으며, 높은 LOD는 낮은 LOD에 속한 포인트들을 포함할 수 있다. 예를 들어, LOD0는 P0, P5, P4 및 P2를 포함할 수 있으며, LOD1은 LOD0의 포인트들과 P1, P6 및 P3를 포함할 수 있다. 또한, LOD2는 LOD0의 포인트들, LOD1의 포인트들 및 P9, P8 및 P7을 포함할 수 있다.

LOD 생성부(450)는 예측 변환을 위해 각 포인트들에 대한 예측기(predictor)를 생성할 수 있다. 따라서, N개의 포인트들이 존재하는 경우에는 N개의 예측기들이 생성될 수 있다. 예측기는 각 포인트들에 대한 LOD 값, 이웃 포인트들에 대한 인덱싱 정보, 및 이웃 포인트들과의 거리 값을 기반으로 하여 가중치 값(= 1/거리)을 계산하여 설정할 수 있다. 여기서, 이웃 포인트들은 현재 포인트로부터 LOD 별로 설정된 거리 내에 존재하는 포인트들일 수 있다.

또한, 예측기는 이웃 포인트들의 어트리뷰트 값에 '설정된 가중치 값'을 곱하고, 가중치 값이 곱해진 어트리뷰트 값들을 평균한 값을 현재 포인트의 예측된 어트리뷰트 값으로 설정할 수 있다. 현재 포인트의 어트리뷰트 값에서 해당 현재 포인트의 예측된 어트리뷰트 값을 뺀 잔여(residual) 어트리뷰트 값에 대해 어트리뷰트 양자화 과정이 수행될 수 있다.

리프팅 변환 과정은 예측 변환 과정과 마찬가지로, LOD 생성 과정을 통해 포인트들을 디테일 레벨의 집합으로 재구성하는 과정에 해당할 수 있다. 리프팅 변환 과정은 리프팅부(455)에 의해 수행될 수 있다. 리프팅 변환 과정도 각 포인트들에 대한 예측기를 생성하는 과정, 계산된 LOD를 예측기에 설정하는 과정, 이웃 포인트들을 등록하는 과정, 및 현재 포인트와 이웃 포인트들 간의 거리에 따른 가중치를 설정하는 과정 등을 포함할 수 있다.

리프팅 변환 과정과 예측 변환 과정 간의 차이점은 리프팅 변환 과정이 어트리뷰트 값에 가중치를 누적 적용하는 방법일 수 있다는 것이다. 어트리뷰트 값에 가중치를 누적 적용하는 방법은 다음과 같을 수 있다.

1) 각 포인트들에 대한 가중치 값을 저장하는 배열 QW(quantization weight)가 별도로 존재할 수 있다. QW의 모든 요소들의 초기 값은 1.0이다. 예측기에 등록된 이웃 노드(이웃 포인트)의 예측기 인덱스의 QW 값에 현재 포인트의 예측기의 가중치를 곱한 값을 더한다.

2) 예측된 어트리뷰트 값을 계산하기 위하여, 포인트의 어트리뷰트 값에 가중치를 곱한 값을 기존 어트리뷰트 값에서 뺀다. 이 과정은 리프트 예측(lift prediction) 과정으로 지칭될 수 있다.

3) 'updateweight'와 'update'라는 임시 배열을 생성하고, 배열 내 요소들을 0으로 초기화한다.

4) 모든 예측기에 대해, 계산된 가중치에 QW에 저장된 가중치를 추가로 곱하여 새로운 가중치를 도출하고, 새로운 가중치를 이웃 노드의 인덱스로서 updateweight에 누적 합산하며, 새로운 가중치를 이웃 노드의 인덱스의 어트리뷰트 값에 곱한 값을 update에 누적 합산한다.

5) 모든 예측기에 대해, update의 어트리뷰트 값을 예측기 인덱스의 updateweight의 가중치 값으로 나누고, 그 결과를 기존 어트리뷰트 값에 합산한다. 이 과정은 리프트 업데이트(lift update) 과정으로 지칭될 수 있다.

6) 모든 예측기에 대해, 리프트 업데이트 과정을 통해 업데이트된 어트리뷰트 값에 리프트 예측 과정을 통해 업데이트된(QW에 저장된) 가중치를 곱하고, 그 결과(곱하여 나온 값)을 양자화한 후에, 양자화된 값을 엔트로피 인코딩한다.

RAHT 변환 과정은 옥트리의 하위(lower) 레벨에 있는 노드와 연관된 어트리뷰트 정보를 사용하여 상위 레벨에 있는 노드들의 어트리뷰트 정보를 예측하는 방법에 해당할 수 있다. 즉, RATH 변환 과정은 옥트리 백워드(backward) 스캔을 통한 어트리뷰트 정보 인트라 코딩 방법에 해당할 수 있다. RAHT 변환 과정은 RAHT 변환부(445)에 의해 수행될 수 있다.

RAHT 변환부(445)는 복셀에서 전체 영역으로 스캔하며 각 스텝에서 복셀을 더 큰 블록으로 합산(병합)하면서 루트 노드까지 RAHT 변환 과정을 수행할 수 있다. RAHT 변환부(445)는 점유된(occupied) 노드에 대해서만 RAHT 변환 과정을 수행하므로, 점유되지 않은 empty 노드의 경우에는 바로 위의 상위 레벨의 노드를 대상으로 RAHT 변환 과정을 수행할 수 있다.

레벨

에서의 복셀들의 평균 어트리뷰트 값을

라 하면,

는

와

로부터 계산될 수 있다.

와

의 가중치를 각각

와

라 하면, 아래 수식 5와 같은 RAHT 변환 행렬을 구할 수 있다.

[수식 5]

수식 5에서,

는 low-pass 값이고, 다음 상위 레벨에서의 병합 과정에 사용될 수 있다.

는 high-pass 계수이며, 각 스텝에서의 high-pass 계수들은 양자화되어 엔트로피 인코딩될 수 있다. 가중치는

로 계산될 수 있다. 루트 노드는 마지막

과

를 통해서 아래 수식 6과 같이 생성될 수 있다.

[수식 6]

수식 6에서, gDC 값 또한 high-pass 계수와 같이 양자화되어 엔트로피 코딩될 수 있다.

어트리뷰트 양자화 과정은 RAHT 변환부(445), LOD 생성부(450) 및/또는 리프팅부(455)로부터 출력된 어트리뷰트를 양자화하는 과정에 해당할 수 있다. 어트리뷰트 양자화 과정은 어트리뷰트 양자화부(460)에 의해 수행될 수 있다. 어트리뷰트 인코딩 과정은 양자화된 어트리뷰트를 인코딩하여 어트리뷰트 비트스트림을 출력하는 과정에 해당할 수 있다. 어트리뷰트 인코딩 과정은 어트리뷰트 인코딩부(465)에 의해 수행될 수 있다.

예를 들어, LOD 생성부(450)로부터 현재 포인트의 예측된 어트리뷰트 값이 계산된 경우, 어트리뷰트 양자화부(460)는 현재 포인트의 어트리뷰트 값에서 해당 현재 포인트의 예측된 어트리뷰트 값을 뺀 잔여(residual) 어트리뷰트 값을 양자화할 수 있다. 본 개시의 어트리뷰트 양자화 과정에 대한 일 예는 표 2와 같다.

int PCCQuantization(int value, int quantStep){

if(value >= 0){

return floor(value/quantStep + 1.0/3.0);

} else {

return -floor(-value/quantStep + 1.0/3.0);

}

만약, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않는 경우에, 어트리뷰트 인코딩부(465)는 현재 포인트의 어트리뷰트 값(양자화되지 않은 어트리뷰트 값)을 직접 엔트로피 코딩할 수 있다. 이와 달리, 현재 포인트들의 예측기에 이웃 포인트들이 존재하는 경우에, 어트리뷰트 인코딩부(465)는 양자화된 잔여 어트리뷰트 값을 엔트로피 인코딩할 수 있다.

다른 예로, 리프팅부(460)로부터, 리프트 업데이트 과정을 통해 업데이트된 어트리뷰트 값에 리프트 예측 과정을 통해 업데이트된(QW에 저장된) 가중치를 곱한 값이 출력되는 경우, 어트리뷰트 양자화부(460)는 그 결과(곱하여 나온 값)를 양자화할 수 있으며, 어트리뷰트 인코딩부(465)는 양자화된 값을 엔트로피 인코딩할 수 있다.

포인트 클라우드 복호화 장치의 개요

도 10은 본 개시의 일 실시예에 따른 포인트 클라우드 복호화 장치(1000)의 예시를 나타낸다. 도 10의 포인트 클라우드 복호화 장치(1000)는 도 1의 복호화부(23)와 구성 및 기능에서 대응될 수 있다.

포인트 클라우드 복호화 장치(1000)는 전송 장치(10)로부터 전송된 데이터들(비트스트림)에 기반하여, 디코딩 과정을 수행할 수 있다. 디코딩 과정은 비트스트림을 대상으로 앞서 설명된 인코딩 동작에 대응하는 동작을 수행하여 포인트 클라우드 비디오를 복원(디코딩)하는 과정을 포함할 수 있다.

도 10에 예시된 바와 같이, 디코딩 과정은 지오메트리 디코딩 과정과 어트리뷰트 디코딩 과정을 포함할 수 있다. 지오메트리 디코딩 과정은 지오메트리 복호화부(1010)에 의해 수행될 수 있으며, 어트리뷰트 디코딩 과정은 어트리뷰트 복호화부(1020)에 의해 수행될 수 있다. 즉, 포인트 클라우드 복호화 장치(1000)는 지오메트리 복호화부(1010) 및 어트리뷰트 복호화부(1020)를 포함할 수 있다.

지오메트리 복호화부(1010)는 지오메트리 비트스트림으로부터 지오메트리를 복원할 수 있고, 어트리뷰트 복호화부(1020)는 복원된 지오메트리와 어트리뷰트 비트스트림에 기반하여 어트리뷰트를 복원할 수 있다. 또한, 포인트 클라우드 복호화 장치(1000)는 복원된 지오메트리에 따른 포지션 정보 및 복원된 어트리뷰트에 따른 어트리뷰트 정보를 기반으로 3차원의 포인트 클라우드 비디오(포인트 클라우드 데이터)를 복원할 수 있다.

도 11은 본 개시의 다른 일 실시예에 따른 포인트 클라우드 복호화 장치(1100)의 구체적인 예시를 나타낸다. 도 11에 예시된 바와 같이, 포인트 클라우드 복호화 장치(1100)는 지오메트리 디코딩부(1105), 옥트리 합성부(1110), 근사화 합성부(1115), 지오메트리 복원부(1120), 좌표계 역변환부(1125), 어트리뷰트 디코딩부(1130), 어트리뷰트 역양자화부(1135), RATH 변환부(1150), LOD 생성부(1140), 역리프팅부(1145) 및/또는 컬러 역변환부(1155)를 포함할 수 있다.

지오메트리 디코딩부(1105), 옥트리 합성부(1110), 근사화 합성부(1115), 지오메트리 복원부(1120) 및 좌표계 역변환부(1150)는 지오메트리 디코딩을 수행할 수 있다. 지오메트리 디코딩은 도 1 내지 도 9에서 설명한 지오메트리 코딩의 역과정으로 수행될 수 있다. 지오메트리 디코딩은 다이렉트 코딩(direct coding) 및 트라이숩 지오메트리 디코딩(trisoup geometry decoding)을 포함할 수 있다. 다이렉트 코딩 및 트라이숩 지오메트리 디코딩은 선택적으로 적용될 수 있다.

지오메트리 디코딩부(1105)는 수신한 지오메트리 비트스트림을 아리스메틱 코딩을 기반으로 디코딩할 수 있다. 지오메트리 디코딩부(1105)의 동작은 지오메트리 인코딩부(435)가 수행하는 동작의 역과정에 대응할 수 있다.

옥트리 합성부(1110)는 디코딩된 지오메트리 비트스트림으로부터(또는, 디코딩 결과 확보된 지오메트리에 관한 정보)로부터 오큐판시 코드를 획득하여 옥트리를 생성할 수 있다. 옥트리 합성부(1110)의 동작은 옥트리 분석부(415)가 수행하는 동작의 역과정에 대응할 수 있다.

근사화 합성부(1115)는 트라이숩 지오메트리 인코딩이 적용된 경우에 디코딩된 지오메트리 및/또는 생성된 옥트리에 기반하여 서페이스를 합성할 수 있다.

지오메트리 복원부(1120)는 서페이스 및 디코딩된 지오메트리에 기반하여 지오메트리를 복원할 수 있다. 다이렉트 코딩이 적용된 경우에, 지오메트리 복원부(1120)는 다이렉트 코딩이 적용된 포인트들의 포지션 정보들을 직접 가져와서 추가할 수 있다. 또한, 트라이숩 지오메트리 인코딩이 적용된 경우에, 지오메트리 복원부(1120)는 재구성 동작, 예를 들면 삼각형 재구성, 업-샘플링, 복셀화 동작 등을 수행하여 지오메트리를 복원할 수 있다. 복원된 지오메트리는 어트리뷰트들을 포함하지 않는 포인트 클라우드 픽쳐 또는 프레임을 포함할 수 있다.

좌표계 역변환부(1150)는 복원된 지오메트리를 기반으로 좌표계를 변환하여 포인트들의 포지션들을 획득할 수 있다. 예를 들어, 좌표계 역변환부(1150)는 포인트들의 포지션을 3차원 공간(예를 들어, X축, Y축 및 Z축 좌표계로 표현되는 3차원 공간 등)으로부터 글로벌 공간 좌표계의 위치 정보로 역변환할 수 있다.

어트리뷰트 디코딩부(1130), 어트리뷰트 역양자화부(1135), RATH 변환부(1230), LOD 생성부(1140), 역리프팅부(1145) 및/또는 컬러 역변환부(1250)는 어트리뷰트 디코딩을 수행할 수 있다. 어트리뷰트 디코딩은 RAHT 변환 디코딩, 예측 변환 디코딩 및 리프팅 변환 디코딩을 포함할 수 있다. 상술한 3가지의 디코딩들은 선택적으로 사용되거나, 하나 또는 그 이상의 디코딩들의 조합이 사용될 수 있다.

어트리뷰트 디코딩부(1130)는 아리스메틱 코딩에 기반하여 어트리뷰트 비트스트림을 디코딩할 수 있다. 예를 들어, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않아 현재 포인트의 어트리뷰트 값이 직접 엔트로피 인코딩된 경우에, 어트리뷰트 디코딩부(1130)는 현재 포인트의 어트리뷰트 값(양자화되지 않은 어트리뷰트 값)을 디코딩할 수 있다. 다른 예로, 현재 포인트들의 예측기에 이웃 포인트들이 존재하여 양자화된 잔여 어트리뷰트 값이 엔트로피 인코딩된 경우에, 어트리뷰트 디코딩부(1130)는 양자화된 잔여 어트리뷰트 값을 디코딩할 수 있다.

어트리뷰트 역양자화부(1135)는 디코딩된 어트리뷰트 비트스트림 또는 디코딩 결과 확보한 어트리뷰트에 대한 정보를 역양자화하고, 역양자화된 어트리뷰트들(또는, 어트리뷰트 값들)을 출력할 수 있다. 예를 들어, 어트리뷰트 디코딩부(1130)로부터 양자화된 잔여 어트리뷰트 값이 출력된 경우, 어트리뷰트 역양자화부(1135)는 양자화된 잔여 어트리뷰트 값을 역양자화하여 잔여 어트리뷰트 값을 출력할 수 있다. 역양자화 과정은 포인트 클라우드 부호화 장치(400)의 어트리뷰트 인코딩 여부에 기반하여 선택적으로 적용될 수 있다. 즉, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않아 현재 포인트의 어트리뷰트 값이 직접 인코딩된 경우에, 어트리뷰트 디코딩부(1130)는 양자화되지 않은 현재 포인트의 어트리뷰트 값을 출력할 수 있으며, 어트리뷰트 인코딩 과정은 스킵될 수 있다. 본 개시의 어트리뷰트 역양자화 과정에 대한 일 예는 표 3과 같다.

int PCCInverseQuantization (int value, int quantStep) {

if(quantStep ==0) {

return value;

} else {

return value * quantStep;

}

RATH 변환부(1150), LOD 생성부(1140) 및/또는 역리프팅부(1145)는 재구성된 지오메트리 및 역양자화된 어트리뷰트들을 처리할 수 있다. RATH 변환부(1150), LOD 생성부(1140) 및/또는 역리프팅부(1145)는 포인트 클라우드 부호화 장치(400)의 인코딩 동작에 대응하는 디코딩 동작을 선택적으로 수행할 수 있다.

컬러 역변환부(1155)는 디코딩된 어트리뷰트들에 포함된 컬러 값(또는, 텍스쳐)을 역변환하기 위한 역변환 코딩을 수행할 수 있다. 컬러 역변환부(1155)의 동작은 컬러 변환부(435)의 동작 여부에 기반하여 선택적으로 수행될 수 있다.

도 12는 본 개시의 실시예들에 따른 전송 장치의 다른 예시를 나타낸다. 도 12에 예시된 바와 같이, 전송 장치는 데이터 입력부(1205), 양자화 처리부(1210), 복셀화 처리부(1215), 옥트리 오큐판시(Occupancy) 코드 생성부(1220), 표면 모델 처리부(1225), 인트라/인터 코딩 처리부(1230), 아리스메틱(Arithmetic) 코더(1235), 메타 데이터 처리부(1240), 색상 변환 처리부(1245), 속성 변환 처리부(1250), 예측/리프팅/RAHT 변환 처리부(1255), 아리스메틱 코더(1260) 및 전송 처리부(1265)를 포함할 수 있다.

데이터 입력부(1205)의 기능은 도 1의 획득부(11)가 수행하는 획득 과정에 대응될 수 있다. 즉, 데이터 입력부(1205)는 포인트 클라우드 비디오를 획득하고, 다수의 포인트들에 대한 포인트 클라우드 데이터를 생성할 수 있다. 포인트 클라우드 데이터 내 지오메트리 정보(포지션 정보)는 양자화 처리부(1210), 복셀화 처리부(1215), 옥트리 오큐판시 코드 생성부(1220), 표면 모델 처리부(1225), 인트라/인터 코딩 처리부(1230) 및, 아리스메틱 코더(1235)를 거쳐 지오메트리 비트스트림 형태로 생성될 수 있다. 포인트 클라우드 데이터 내 어트리뷰트 정보는 색상 변환 처리부(1245), 속성 변환 처리부(1250), 예측/리프팅/RAHT 변환 처리부(1255) 및, 아리스메틱 코더(1260)를 거쳐 어트리뷰트 비트스트림 형태로 생성될 수 있다. 지오메트리 비트스트림, 어트리뷰트 비트스트림 및/또는 메타 데이터 비트스트림은 전송 처리부(1265)의 처리를 통해 수신 장치로 전송될 수 있다.

구체적으로, 양자화 처리부(1210)의 기능은 도 4의 지오메트리 양자화부(410)가 수행하는 양자화 과정 및/또는 좌표계 변환부(405)의 기능에 대응될 수 있다. 복셀화 처리부(1215)의 기능은 도 4의 지오메트리 양자화부(410)가 수행하는 복셀화 과정에 대응될 수 있으며, 옥트리 오큐판시 코드 생성부(1220)의 기능은 도 4의 옥트리 분석부(415)가 수행하는 기능에 대응될 수 있다. 표면 모델 처리부(1225)의 기능은 도 4의 근사화부(420)가 수행하는 기능에 대응될 수 있으며, 인트라/인터 코딩 처리부(1230)의 기능 및 아리스메틱 코더(1235)의 기능은 도 4의 지오메트리 인코딩부(425)가 수행하는 기능에 대응될 수 있다. 메타 데이터 처리부(1240)의 기능은 도 1에서 설명된 메타 데이터 처리부의 기능에 대응될 수 있다.

또한, 색상 변환 처리부(1245)의 기능은 도 4의 컬러 변환부(435)가 수행하는 기능에 대응될 수 있으며, 속성 변환 처리부(1250)의 기능은 도 4의 어트리뷰트 변환부(440)가 수행하는 기능에 대응될 수 있다. 예측/리프팅/RAHT 변환 처리부(1255)의 기능은 도 4의 RAHT 변환부(4450), LOD 생성부(450) 및 리프팅부(455)가 수행하는 기능에 대응될 수 있으며, 아리스메틱 코더(1260)의 기능은 도 4의 어트리뷰트 인코딩부(465)의 기능에 대응될 수 있다. 전송 처리부(1265)의 기능은 도 1의 전송부(14) 및/또는 인캡슐레이션 처리부(13)가 수행하는 기능에 대응될 수 있다.

도 13은 본 개시의 실시예들에 따른 수신 장치의 다른 예시를 나타낸다. 도 13에 예시된 바와 같이, 수신 장치는 수신부(1305), 수신 처리부(1310), 아리스메틱 디코더(1315), 메타 데이터 파서(1335), 오큐판시 코드기반 옥트리 재구성 처리부(1320), 표면 모델 처리부(1325), 인버스(Inverse) 양자화 처리부(1330), 아리스메틱 디코더(1340), 인버스 양자화 처리부(1345), 예측/리프팅/RAHT 역변환 처리부(1350), 색상 역변환 처리부(1355) 및 렌더러(1360)를 포함할 수 있다.

수신부(1305)의 기능은 도 1의 수신부(21)가 수행하는 기능에 대응될 수 있으며, 수신 처리부(1310)의 기능은 도 1의 디캡슐레이션 처리부(22)가 수행하는 기능에 대응될 수 있다. 즉, 수신부(1305)는 전송 처리부(1265)로부터 비트스트림을 수신하고, 수신 처리부(1310)는 디캡슐레이션 처리를 통해 지오메트리 비트스트림, 어트리뷰트 비트스트림 및/또는 메타 데이터 비트스트림을 추출할 수 있다. 지오메트리 비트스트림은 아리스메틱 디코더(1315), 오큐판시 코드기반 옥트리 재구성 처리부(1320), 표면 모델 처리부(1325) 및, 인버스 양자화 처리부(1330)를 거쳐 재구성된(복원된) 포지션 값(포지션 정보)으로 생성될 수 있다. 어트리뷰트 비트스트림은 아리스메틱 디코더(1340), 인버스 양자화 처리부(1345), 예측/리프팅/RAHT 역변환 처리부(1350) 및, 색상 역변환 처리부(1355)를 거쳐 복원된 어트리뷰트 값으로 생성될 수 있다. 메타 데이터 비트스트림은 메타 데이터 파서(1335)를 거쳐 복원된 메타 데이터(또는, 메타 데이터 정보)로 생성될 수 있다. 포지션 값, 어트리뷰트 값 및/또는 메타 데이터가 렌더러(1360)에서 렌더링되어 사용자에게 VR/AR/MR/자율주행과 같은 경험을 제공할 수 있다.

구체적으로, 아리스메틱 디코더(1315)의 기능은 도 11의 지오메트리 디코딩부(1105)가 수행하는 기능에 대응될 수 있으며, 오큐판시 코드기반 옥트리 재구성 처리부(1320)의 기능은 도 11의 옥트리 합성부(1110)가 수행하는 기능에 대응될 수 있다. 표면 모델 처리부(1325)의 기능은 도 11의 근사화 합성부가 수행하는 기능에 대응될 수 있으며, 인버스 양자화 처리부(1330)의 기능은 도 11의 지오메트리 복원부(1120) 및/또는 좌표계 역변환부(1125)가 수행하는 기능에 대응될 수 있다. 메타 데이터 파서(1335)의 기능은 도 1에서 설명한 메타 데이터 파싱부가 수행하는 기능에 대응될 수 있다.

또한, 아리스메틱 디코더(1340)의 기능은 도 11의 어트리뷰트 디코딩부(1130)가 수행하는 기능에 대응될 수 있으며, 인버스 양자화 처리부(1345)의 기능은 도 11의 어트리뷰트 역양자화부(1135)의 기능에 대응될 수 있다. 예측/리프팅/RAHT 역변환 처리부(1350)의 기능은 도 11의 RAHT 변환부(1150), LOD 생성부(1140) 및 역리프팅부(1145)가 수행하는 기능에 대응될 수 있으며, 색상 역변환 처리부(1355)의 기능은 도 11의 컬러 역변환부(1155)가 수행하는 기능에 대응될 수 있다.

도 14의 구조는 서버(AI Server), 로봇(Robot), 자율 주행 차량(Self-Driving Vehicle), XR 장치(XR device), 스마트폰(Smartphone), 가전(Home Appliance) 및/또는 HMD 중에서 적어도 하나 이상이 클라우드 네트워크(Network)와 연결된 구성을 나타낸다. 로봇, 자율 주행 차량, XR 장치, 스마트폰 또는 가전 등은 장치라 지칭될 수 있다. 또한, XR 장치는 실시예들에 따른 포인트 클라우드 데이터 장치(PCC)에 대응되거나 PCC 장치와 연동될 수 있다.

클라우드 네트워크는 클라우드 컴퓨팅 인프라의 일부를 구성하거나 클라우드 컴퓨팅 인프라 안에 존재하는 네트워크를 의미할 수 있다. 여기서, 클라우드 네트워크는 3G 네트워크, 4G 또는 LTE(Long Term Evolution) 네트워크 또는 5G 네트워크 등을 이용하여 구성될 수 있다.

서버는 로봇, 자율 주행 차량, XR 장치, 스마트폰, 가전 및/또는 HMD 중에서 적어도 하나 이상과 클라우드 네트워크를 통하여 연결되고, 연결된 장치들의 프로세싱의 적어도 일부를 도울 수 있다.

HMD는 실시예들에 따른 XR 디바이스 및/또는 PCC 디바이스가 구현될 수 있는 타입 중 하나를 나타낼 수 있다. 실시예들에 따른 HMD 타입의 디바이스는 커뮤니케이션 유닛, 컨트롤 유닛, 메모리 유닛, I/O 유닛, 센서 유닛, 그리고 파워 공급 유닛 등을 포함할 수 있다.

<PCC+XR>

XR/PCC 장치는 PCC 및/또는 XR 기술이 적용되어, HMD, 차량에 구비된 HUD, 텔레비전, 휴대폰, 스마트 폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지, 차량, 고정형 로봇이나 이동형 로봇 등으로 구현될 수도 있다.

XR/PCC 장치는 다양한 센서들을 통해 또는 외부 장치로부터 획득한 3차원 포인트 클라우드 데이터 또는 이미지 데이터를 분석하여 3차원 포인트들에 대한 위치(지오메트리) 데이터 및 어트리뷰트 데이터를 생성함으로써 주변 공간 또는 현실 객체에 대한 정보를 획득하고, 출력할 XR 객체를 렌더링하여 출력할 수 있다. 예컨대, XR/PCC 장치는 인식된 물체에 대한 추가 정보를 포함하는 XR 객체를 해당 인식된 물체에 대응시켜 출력할 수 있다.

<PCC+XR+모바일폰>

XR/PCC 장치는 PCC 기술이 적용되어 모바일폰 등으로 구현될 수 있다. 모바일폰은 PCC 기술에 기반하여 포인트 클라우드 콘텐츠를 디코딩하고, 디스플레이할 수 있다.

<PCC+자율주행+XR>

자율 주행 차량은 PCC 기술 및 XR 기술이 적용되어, 이동형 로봇, 차량, 무인 비행체 등으로 구현될 수 있다. XR/PCC 기술이 적용된 자율 주행 차량은 XR 영상을 제공하는 수단을 구비한 자율 주행 차량이나, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량 등을 의미할 수 있다. 특히, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량은 XR 장치와 구분되며 서로 연동될 수 있다.

XR/PCC 영상을 제공하는 수단을 구비한 자율 주행 차량은 카메라를 포함하는 센서들로부터 센서 정보를 획득하고, 획득한 센서 정보에 기초하여 생성된 XR/PCC 영상을 출력할 수 있다. 예컨대, 자율 주행 차량은 HUD를 구비하여 XR/PCC 영상을 출력함으로써, 탑승자에게 현실 객체 또는 화면 속의 객체에 대응되는 XR/PCC 객체를 제공할 수 있다.

이때, XR/PCC 객체가 HUD에 출력되는 경우에는 XR/PCC 객체의 적어도 일부가 탑승자의 시선이 향하는 실제 객체에 오버랩되도록 출력될 수 있다. 반면, XR/PCC 객체가 자율 주행 차량의 내부에 구비되는 디스플레이에 출력되는 경우에는 XR/PCC 객체의 적어도 일부가 화면 속의 객체에 오버랩되도록 출력될 수 있다. 예컨대, 자율 주행 차량은 차로, 타 차량, 신호등, 교통 표지판, 이륜차, 보행자, 건물 등과 같은 객체와 대응되는 XR/PCC 객체들을 출력할 수 있다.

실시예들에 의한 VR 기술, AR 기술, MR 기술 및/또는 PCC 기술은, 다양한 디바이스에 적용 가능하다. 즉, VR 기술은 현실 세계의 객체나 배경 등을 CG 영상으로만 제공하는 디스플레이 기술이다. 반면, AR 기술은 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 보여 주는 기술을 의미한다. 나아가, MR 기술은 현실세계에 가상 객체들을 섞고 결합시켜서 보여준다는 점에서 전술한 AR 기술과 유사하다. 그러나, AR 기술에서는 현실 객체와 CG 영상으로 만들어진 가상 객체의 구별이 뚜렷하고, 현실 객체를 보완하는 형태로 가상 객체를 사용하는 반면, MR 기술에서는 가상 객체가 현실 객체와 동등한 성격으로 간주된다는 점에서 AR 기술과는 구별이 된다. 보다 구체적으로 예를 들면, 전술한 MR 기술이 적용된 것이 홀로그램 서비스이다. VR, AR 및 MR 기술을 통합하여 XR 기술로 지칭될 수 있다.

공간 분할

포인트 클라우드 데이터(즉, G-PCC 데이터)는 프레임들(포인트 클라우드 프레임들)의 시퀀스로 이루어진 포인트 클라우드의 볼륨메트릭 인코딩(volumetric encoding)을 나타낼 수 있다. 각 포인트 클라우드 프레임은 포인트들의 수, 포인트들의 포지션들, 및 포인트들의 어트리뷰트를 포함할 수 있다. 포인트들의 수, 포인트들의 포지션들, 및 포인트들의 어트리뷰트는 프레임마다 다를 수 있다. 각 포인트 클라우드 프레임은 특정 타임 인스턴스(particulary time instance)에서 3차원 포인트들의 직교 좌표계(cartesian coordinates) (x, y, z)와 제로 이상의 어트리뷰트들에 의해 명시된 3차원 포인트들의 세트를 의미할 수 있다. 여기서, 3차원 포인트들의 직교 좌표계 (x, y, z)은 포지션 또는 지오메트리일 수 있다.

실시예들에 따라, 본 개시는 포인트 클라우드 데이터를 인코딩(부호화)하기 전에 포인트 클라우드 데이터를 하나 이상의 3차원 블록들로 분할하는 공간 분할 과정을 더 수행할 있다. 3차원 블록은 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 3차원 블록은 타일 그룹(tile group), 타일(tile), 슬라이스(slice), 코딩 유닛(coding unit, CU), 예측 유닛(prediction unit, PU), 또는 변환 단위(transform unit, TU) 중에서 하나 이상을 의미할 수 있다.

3차원 블록에 해당하는 타일은 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 또한, 3차원 블록에 해당하는 슬라이스도 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 타일은 하나의 타일에 포함된 포인트들의 개수에 기초하여 하나 이상의 슬라이스들로 분할될 수 있다. 타일은 바운딩 박스 정보를 갖는 슬라이스들의 그룹일 수 있다. 각 타일의 바운딩 박스 정보는 타일 인벤토리(또는, 타일 파라미터 세트, tile parameter set(TPS))에 명시될 수 있다. 타일은 바운딩 박스 내 다른 타일과 오버랩(overlap)될 수 있다. 슬라이스는 독립적으로 인코딩이 수행되는 데이터의 단위일 수 있으며, 독립적으로 디코딩이 수행되는 데이터의 단위일 수 있다. 즉, 슬라이스는 독립적으로 인코딩 또는 디코딩될 수 있는 포인트들의 세트일 수 있다. 실시예들에 따라, 슬라이스는 코딩된 포인트 클라우드 프레임의 일부 또는 전체를 나타내는 신택스 요소들의 시리즈일 수 있다. 각 슬라이스는 해당 슬라이스가 속하는 타일을 식별하기 위한 인덱스를 포함할 수 있다.

공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 처리될 수 있다. 예를 들어, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 인코딩 또는 디코딩될 수 있으며, 각각 독립적 또는 비독립적으로 전송 또는 수신될 수 있다. 또한, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 양자화 또는 역양자화될 수 있으며, 각각 독립적 또는 비독립적으로 변환 또는 역변환될 수도 있다. 또한, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 렌더링될 수도 있다. 예를 들어, 슬라이스 단위 또는 타일 단위로 인코딩 또는 디코딩이 수행될 있다. 또한, 양자화 또는 역양자화가 타일별로 또는 슬라이스별로 다르게 수행될 수 있으며, 변환 또는 역변환된 타일별로 또는 슬라이스별로 다르게 수행될 수 있다.

이와 같이, 포인트 클라우드 데이터를 하나 이상의 3차원 블록들로 공간 분할하고, 공간 분할된 3차원 블록들을 독립적 또는 비독립적으로 처리하면, 3차원 블록들을 처리하는 과정이 실시간으로 이루어짐과 동시에 해당 과정이 저지연으로 처리될 수 있다. 또한, 포인트 클라우드 데이터가 점유하는 3차원 공간 상의 랜덤 액세스(random access)와 병렬 인코딩 또는 병렬 디코딩이 가능해질 수 있으며, 인코딩 또는 디코딩 과정에서 누적되는 오류를 방지할 수도 있다.

도 15는 바운딩 박스(즉, 포인트 클라우드 데이터)를 하나 이상의 3차원 블록들로 공간 분할한 일 예를 나타낸다. 도 15에 예시된 바와 같이, 포인트 클라우드 데이터의 전체(overall) 바운딩 박스는 3개의 타일들, 즉 타일 #0(tile #0), 타일 #1(tile #1) 및 타일 #2(tile #2)로 분할될 수 있다. 또한, 타일 #0은 다시 2개의 슬라이스들, 즉 슬라이스 #0(slice #0) 및 슬라이스 #1(slice #1)로 분할될 수 있다. 또한, 타일 #1은 다시 2개의 슬라이스들, 즉 슬라이스 #2(slice #2) 및 슬라이스 #3(slice #3)으로 분할될 수 있다. 또한, 타일 #2는 다시 슬라이스 #4(slice #4)로 분할될 수 있다.

포인트 클라우드 데이터가 하나 이상의 3차원 블록들로 분할된 경우에는, 포인트 클라우드 데이터 중에서 특정 타일 또는 특정 슬라이스에 해당하는 일부의 포인트 클라우드 데이터를 디코딩하기 위한 정보가 필요할 수 있다. 또한, 포인트 클라우드 데이터에 대한 공간적 접근(또는, 부분적 접근)을 지원하기 위해, 3차원 공간 영역들에 관련된 정보가 필요할 수도 있다. 여기서, 공간적 접근이란, 포인트 클라우드 데이터 전체에서 필요한 일부의 포인트 클라우드 데이터만을 파일로부터 추출하는 것을 의미할 수 있다. 시그널링 정보는 일부의 포인트 클라우드 데이터를 디코딩하기 위한 정보, 공간적 접근을 지원하기 위한 3차원 공간 영역들에 관련된 정보 등을 포함할 수 있다. 예를 들어, 시그널링 정보는 3차원 바운딩 박스 정보, 3차원 공간 영역 정보, 타일 정보 및/또는 타일 인벤토리 정보 등을 포함할 수 있다.

시그널링 정보는 트랙 내 샘플, 샘플 엔트리, 샘플 그룹, 트랙 그룹 또는 별도의 메타 데이터 트랙 등에 저장되어 시그널링될 수 있다. 실시예들에 따라, 시그널링 정보는 시퀀스 레벨의 시그널링을 위한 시퀀스 파라미터 세트(sequence parameter set, SPS), 지오메트리 코딩 정보의 시그널링을 위한 지오메트리 파라미터 세트(geometry parameter set, GPS), 어트리뷰트 코딩 정보의 시그널링을 위한 어트리뷰트 파라미터 세트(attribute parameter set, APS), 타일 레벨의 시그널링을 위한 타일 파라미터 세트(tile parameter set, TPS)(또는, 타일 인벤토리) 등의 단위로 시그널링될 수 있다. 또한, 시그널링 정보는 슬라이스 또는 타일 등과 같은 코딩 유닛 단위로 시그널링될 수도 있다.

비트스트림

지오메트리 비트스트림, 어트리뷰트 비트스트림, 및/또는 시그널링 비트스트림이 하나의 비트스트림(또는, G-PCC 비트스트림)으로 구성되는 경우, 비트스트림은 하나 이상의 서브 비트스트림들을 포함할 수 있다.

도 16에 예시된 바와 같이, 비트스트림은 하나 이상의 SPS, 하나 이상의 GPS, 하나 이상의 APS(APS0, APS1), 하나 이상의 TPS, 및/또는 하나 이상의 슬라이스들(slice 0, …, slice n)을 포함할 수 있다. 타일은 하나 이상의 슬라이스들을 포함하는 슬라이스 그룹이므로, 비트스트림은 하나 이상의 타일들을 포함할 수 있다. TPS는 각 타일에 관한 정보(예를 들어, 바운딩 박스의 좌표 값, 높이 및/또는 크기 등의 정보)를 포함할 수 있으며, 각 슬라이스들은 지오메트리 비트스트림(Geom0) 및/또는 하나 이상의 어트리뷰트 비트스트림들(Attr0, Attr1)을 포함할 수 있다. 예를 들어, 슬라이스 0(slice 0)은 지오메트리 비트스트림(Geom00) 및/또는 하나 이상의 어트리뷰트 비트스트림들(Attr00, Attr10)을 포함할 수 있다.

각 슬라이스 내 지오메트리 비트스트림은 지오메트리 슬라이스 헤더(Geom_slice_header)와 지오메트리 슬라이스 데이터(Geom_slice_data)로 구성될 수 있다. 지오메트리 슬라이스 헤더는 GPS에 포함된 파라미터 세트의 식별 정보(geom_parameter_set_id), 타일 식별자(geom_tile_id), 슬라이스 식별자(geom_slice_id), 및/또는 지오메트리 슬라이스 데이터(geom_slice_data)에 포함된 데이터에 관한 정보(geomBoxOrigin, geom_box_log2_scale, geom_max_node_size_log2, geom_num_points) 등을 포함할 수 있다. geomBoxOrigin는 해당 지오메트리 슬라이스 데이터의 박스 원점을 나타내는 지오메트리 박스 오리진 정보이고, geom_box_log2_scale는 해당 지오메트리 슬라이스 데이터의 로그 스케일을 나타내는 정보이며, geom_max_node_size_log2는 루트 지오메트리 옥트리 노드의 사이즈를 나타내는 정보이며, geom_num_points는 해당 지오메트리 슬라이스 데이터의 포인트들의 개수와 관련된 정보이다. 지오메트리 슬라이스 데이터는 해당 슬라이스 내 포인트 클라우드 데이터의 지오메트리 정보(또는, 지오메트리 데이터)를 포함할 수 있다.

각 슬라이스 내 각 어트리뷰트 비트스트림은 어트리뷰트 슬라이스 헤더(Attr_slice_header)와 어트리뷰트 슬라이스 데이터(Attr_slice_data)를 포함할 수 있다. 어트리뷰트 슬라이스 헤더는 해당 어트리뷰트 슬라이스 데이터에 관한 정보를 포함할 수 있고, 어트리뷰트 슬라이스 데이터는 해당 슬라이스 내 포인트 클라우드 데이터의 어트리뷰트 정보(또는, 어트리뷰트 데이터)를 포함할 수 있다. 하나의 슬라이스 내 어트리뷰트 비트스트림이 복수 개 존재하는 경우, 각각은 서로 다른 어트리뷰트 정보를 포함할 수 있다. 예를 들어, 하나의 어트리뷰트 비트스트림은 색상에 해당하는 어트리뷰트 정보를 포함하고, 다른 하나의 어트리뷰트 비트스트림은 반사율에 해당하는 어트리뷰트 정보를 포함할 수 있다.

GPCC 엔트리 정보 구조

G-PCC 엔트리 정보 박스(GPCCEntryInfoBox)의 신택스 구조는 아래와 같이 정의될 수 있다.

class GPCCEntryInfoBox extends Box('gpsb') {

GPCCEntryInfoStruct ();

}

위 신택스 구조에서, 'gpsb'의 샘플 엔트리 타입을 가지는 GPCCEntryInfoBox는 GPCCEntryInfoStruct ()를 포함할 수 있다. GPCCEntryInfoStruct ()의 신택스는 아래와 같이 정의될 수 있다.

aligned(8) class GPCCEntryInfoStruct {

unsigned int (1) main_entry_flag;

unsigned int(1) dependent_on;

if (dependent_on) { //non-entry

unsigned int(16) dependency_id;

}

GPCCEntryInfoStruct ()는 main_entry_flag와 dependent_on를 포함할 수 있다. main_entry_flag는 G-PCC 비트스트림을 디코딩하기 위한 엔트리 포인트(entry point)인지 아닌지를 지시할 수 있다. dependent_on은 그것의 디코딩이 다른 것들에 따라 달라지는지를 지시한다(dependent_on indicates its decoding is dependent on others). 만일, dependent_on이 샘플 엔트리에 존재하면, dependent_on은 트랙 내 샘플들의 디코딩이 다른 트랙들에 종속된다는 것을 지시할 수 있다. dependent_on의 값이 1이면, GPCCEntryInfoStruct()는 dependency_id를 더 포함할 수 있다. dependency_id는 관련된 데이터를 디코딩하기 위한 트랙들의 식별자를 지시할 수 있다. 만일, dependency_id가 샘플 엔트리에 존재하면, dependency_id는 트랙 내 샘플들의 디코딩이 종속되는 G-PCC 서브 비트스트림을 캐리하는 트랙의 식별자를 나타낼 수 있다. 만일, dependency_id가 샘플 그룹에 존재하면, dependency_id는 관련된 샘플들의 디코딩이 종속되는 G-PCC 서브 비트스트림을 캐리하는 샘플들의 식별자를 나타낼 수 있다.

G-PCC 컴포넌트 정보 구조

G-PCC 컴포넌트 타입 박스(GPCCComponentTypeBox)의 신택스 구조는 아래와 같이 정의될 수 있다.

aligned(8) class GPCCComponentTypeBox extends FullBox('gtyp', version = 0, 0) {

GPCCComponentTypeStruct();

}

'gtyp'의 샘플 엔트리 타입을 가지는 GPCCComponentTypeBox는 GPCCComponentTypeStruct()를 포함할 수 있다. GPCCComponentTypeStruct()의 신택스는 아래와 같이 정의될 수 있다.

aligned(8) class GPCCComponentTypeStruct {

unsigned int(8) numOfComponents;

for (i=0; i< numOfComponents; i++) {

unsigned int(8) gpcc_type;

if(gpcc_type == 4)

unsigned int(8) AttrIdx;

}

// additional fields

}

numOfComponents는 해당 GPCCComponentTypeStruct에 시그널링된 G-PCC 컴포넌트들의 개수를 지시할 수 있다. gpcc_type은 numOfComponents의 값만큼 반복되는 반복문에 의해 GPCCComponentTypeStruct에 포함될 수 있다. 이 반복문은 i가 0으로부터 (numOfComponents - 1)이 될 때까지 1씩 증가하면서 반복될 수 있다. gpcc_type은 G-PCC 컴포넌트의 타입을 지시할 수 있다. 예를 들어, gpcc_type의 값이 2이면 지오메트리 컴포넌트를 지시하고, 4이면 어트리뷰트 컴포넌트를 지시할 수 있다. gpcc_type의 값이 4, 즉 어트리뷰트 컴포넌트를 지시하면, 해당 반복문은 AttrIdx를 더 포함할 수 있다. AttrIdx는 SPS()에서 시그널링된 어트리뷰트의 식별자를 지시할 수 있다. G-PCC 컴포넌트 타입 박스(GPCCComponentTypeBox)는 멀티플 트랙들을 위한 샘플 엔트리에 포함될 수 있다. G-PCC 컴포넌트 타입 박스(GPCCComponentTypeBox)가 G-PCC 비트스트림의 일부 또는 모두를 캐리하는 트랙들의 샘플 엔트리에 존재하면, GPCCComponentTypeStruct()는 각 트랙에 의해 캐리되는 하나 이상의 G-PCC 컴포넌트 타입들을 지시할 수 있다. GPCCComponentTypeStruct()를 포함하는 GPCCComponentTypeBox 또는 GPCCComponentTypeStruct()는 G-PCC 컴포넌트 정보라 지칭될 수 있다.

샘플 그룹

본 개시에서 언급된 인캡슐레이션 처리부는 하나 이상의 샘플들을 그룹핑하여 샘플 그룹을 생성할 수 있다. 본 개시에서 언급된 인캡슐레이션 처리부, 메타 데이터 처리부 또는 시그널링 처리부는 샘플 그룹에 연관된 시그널링 정보를 샘플, 샘플 그룹 또는 샘플 엔트리에 시그널링할 수 있다. 즉, 샘플 그룹에 연관된 샘플 그룹 정보는 샘플, 샘플 그룹 또는 샘플 엔트리에 추가될 수 있다. 샘플 그룹 정보는 3D 바운딩 박스 샘플 그룹 정보, 3D 영역 샘플 그룹 정보, 3D 타일 샘플 그룹 정보, 3D 타일 인벤토리 샘플 그룹 정보 등일 수 있다.

트랙 그룹

본 개시에서 언급된 인캡슐레이션 처리부는 하나 이상의 트랙들을 그룹핑하여 트랙 그룹을 생성할 수 있다. 본 개시에서 언급된 인캡슐레이션 처리부, 메타 데이터 처리부 또는 시그널링 처리부는 트랙 그룹에 연관된 시그널링 정보를 샘플, 트랙 그룹 또는 샘플 엔트리에 시그널링할 수 있다. 즉, 트랙 그룹에 연관된 트랙 그룹 정보는 샘플, 트랙 그룹 또는 샘플 엔트리에 추가될 수 있다. 트랙 그룹 정보는 3D 바운딩 박스 트랙 그룹 정보, 포인트 클라우드 컴포지션 트랙 그룹 정보, 공간 영역 트랙 그룹 정보, 3D 타일 트랙 그룹 정보, 3D 타일 인벤토리 트랙 그룹 정보 등일 수 있다.

샘플 엔트리

도 17은 싱글 트랙을 포함하는 ISOBMFF 기반 파일을 설명하기 위한 도면이다. 도 17의 (a)는 싱글 트랙을 포함하는 ISOBMFF 기반 파일의 레이아웃에 대한 일 예를 나타내며, 도 17의 (b)는 G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때 mdat 박스의 샘플 구조에 대한 일 예를 나타낸다. 도 18은 멀티플 트랙을 포함하는 ISOBMFF 기반 파일을 설명하기 위한 도면이다. 도 18의 (a)는 멀티플 트랙을 포함하는 ISOBMFF 기반 파일의 레이아웃에 대한 일 예를 나타내며, 도 18의 (b)는 G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때 mdat 박스의 샘플 구조에 대한 일 예를 나타낸다.

파일의 moov 박스에 포함되는 stsd 박스(SampleDescriptionBox)는 G-PCC 비트스트림을 저장하는 싱글 트랙을 위한 샘플 엔트리를 포함할 수 있다. SPS, GPS, APS, 타일 인벤토리가 파일 내 moov 박스의 샘플 엔트리 또는 mdat 박스의 샘플에 포함될 수 있다. 또한, 지오메트리 슬라이스, 제로 이상의 어트리뷰트 슬라이스들이 파일 내 mdat 박스의 샘플에 포함될 수 있다. G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때, 각 샘플은 멀티플 G-PCC 컴포넌트들을 포함할 수 있다. 즉, 각 샘플은 하나 이상의 TLV 인캡슐레이션 구조들로 구성될 수 있다. 싱글 트랙의 샘플 엔트리는 다음과 같이 정의될 수 있다.

Sample Entry Type: 'gpe1', 'gpeg'

Container: SampleDescriptionBox

Mandatory: A 'gpe1' or 'gpeg' sample entry is mandatory

Quantity: One or more sample entries may be present

샘플 엔트리 타입 'gpe1' 또는 'gpeg'는 필수적이며, 하나 이상의 샘플 엔트리들이 존재할 수 있다. G-PCC 트랙은 'gpe1' 또는 'gpeg'의 샘플 엔트리 타입을 가지는 VolumetricVisualSampleEntry를 사용할 수 있다. G-PCC 트랙의 샘플 엔트리는 G-PCC 디코더 컨피규레이션 박스(GPCCConfigurationBox)를 포함할 수 있고, G-PCC 디코더 컨피규레이션 박스는 G-PCC 디코더 컨피규레이션 레코드(GPCCDecoderConfigurationRecord())를 포함할 수 있다. GPCCDecoderConfigurationRecord()는 configurationVersion, profile_idc, profile_compatibility_flags, level_idc, numOfSetupUnitArrays, SetupUnitType, completeness, numOfSepupUnit, setupUnit 중 적어도 하나를 포함할 수 있다. GPCCDecoderConfigurationRecord()에 포함된 setupUnit array 필드는 하나의 SPS를 포함하는 TLV 인캡슐레이션 구조들을 포함할 수 있다.

샘플 엔트리 타입이 'gpe1'이면, 모든 파라미터 세트들 예를 들어, SPS, GPS, APS, 타일 인벤토리가 setupUints의 어레이에 포함될 수 있다. 샘플 엔트리 타입이 'gpeg'이면, 위의 파라미트 세트들은 setupUints의 어레이(즉, 샘플 엔트리)에 포함되거나 또는 해당 스트림(즉, 샘플)에 포함될 수 있다. 'gpe1'의 샘플 엔트리 타입을 가지는 G-PCC 샘플 엔트리(GPCCSampleEntry)의 신택스에 대한 일 예는 아래와 같다.

aligned(8) class GPCCSampleEntry()

extends VolumetricVisualSampleEntry ('gpe1') {

GPCCConfigurationBox config; //mandatory

3DBoundingBoxInfoBox();

CubicRegionInfoBox();

TileInventoryBox();

}

'gpe1'의 샘플 엔트리 타입을 가지는 G-PCC 샘플 엔트리(GPCCSampleEntry)는 GPCCConfigurationBox, 3DBoundingBoxInfoBox(), CubicRegionInfoBox(), 그리고 TileInventoryBox()를 포함할 수 있다. 3DBoundingBoxInfoBox()는 해당 트랙으로 캐리되는 샘플들과 관련된 포인트 클라우드 데이터의 3D 바운딩 박스 정보를 지시할 수 있다. CubicRegionInfoBox()는 해당 트랙 내 샘플들로 캐리되는 포인트 클라우드 데이터의 하나 이상의 공간 영역 정보를 지시할 수 있다. TileInventoryBox()는 해당 트랙 내 샘플들로 캐리된 포인트 클라우드 데이터의 3D 타일 인벤토리 정보를 지시할 수 있다.

도 17의 (b)에 예시된 바와 같이, 샘플은 지오메트리 슬라이스를 포함하는 TLV 인캡슐레이션 구조들이 포함될 수 있다. 또한, 샘플은 하나 이상의 파라미터 세트들을 포함하는 TLV 인캡슐레이션 구조들을 포함할 수 있다. 또한, 샘플은 하나 이상의 어트리뷰트 슬라이스를 포함하는 TLV 인캡슐레이션 구조들을 포함할 수 있다.

도 18의 (a)에 예시된 바와 같이, G-PCC 비트스트림이 ISOBMFF 기반의 파일의 멀티플 트랙들로 캐리되는 경우에, 각 지오메트리 슬라이스 또는 어트리뷰트 슬라이스는 개별 트랙(indivisual track)에 매핑될 수 있다. 예를 들어, 지오메트리 슬라이스는 트랙 1(track 1)에 매핑될 수 있으며, 어트리뷰트 슬라이스는 트랙2(track 2)에 매핑될 수 있다. 지오메트리 슬라이스를 캐리하는 트랙(track 1)은 지오메트리 트랙 또는 G-PCC 지오메트리 트랙으로 지칭될 수 있고, 어트리뷰트 슬라이스를 캐리하는 트랙(track 2)은 어트리뷰트 트랙 또는 G-PCC 어트리뷰트 트랙으로 지칭될 수 있다. 그리고, 지오메트리 트랙은 지오메트리 슬라이스를 캐리하는 볼륨메트릭 비쥬얼 트랙으로 정의될 수 있으며, 어트리뷰트 트랙은 어트리뷰트 슬라이스를 캐리하는 볼륨메트릭 비쥬얼 트랙으로 정의될 수 있다.

지오메트리 슬라이스와 어트리뷰트 슬라이스 둘 다를 포함하는 G-PCC 비트스트림의 일부를 캐리하는 트랙을 다중화된 트랙(multiplexed track)이라 지칭할 수 있다. 지오메트리 슬라이스와 어트리뷰트 슬라이스가 개별 트랙들(separate tracks)에 저장되는 경우에, 트랙 내 각 샘플은 싱글 G-PCC 컴포넌트의 데이터를 캐리하는 적어도 하나의 TLV 인캡슐레이션 구조를 포함할 수 있다. 이 경우, 각 샘플은 지오메트리와 어트리뷰트 둘 다를 포함하지 않으며, 또한 멀티플 어트리뷰트들을 포함하지 않을 수 있다. G-PCC 비트스트림의 멀티-트랙 인캡슐레이션은 G-PCC 플레이어가 G-PCC 컴포넌트들 중 하나를 효과적(effectively)으로 액세스하는 것을 가능하게 할 수 있다. G-PCC 비트스트림이 멀티플 트랙들로 캐리될 때, G-PCC 플레이어가 G-PCC 컴포넌트들 중 하나를 효과적으로 액세스하기 위해, 다음 조건들이 만족될 필요가 있다.

a) TLV 인캡슐레이션 구조들로 이루어진 G-PCC 비트스트림이 멀티플 트랙들로 캐리될 때, 지오메트리 비트스트림(또는, 지오메트리 슬라이스)을 캐리하는 트랙이 엔트리 포인트가 됨.

b) 샘플 엔트리에서, 해당 트랙에 포함된 스트림의 역할(role)을 지시하기 위해 새로운 박스가 추가됨. 새로운 박스는 전술한 G-PCC 컴포넌트 타입 박스(GPCCComponentTypeBox)일 수 있음. 즉, GPCCComponentTypeBox가 멀티플 트랙들을 위한 샘플 엔트리에 포함될 수 있음.

c) G-PCC 지오메트리 비트스트림만을 운반하는 트랙에서 G-PCC 어트리뷰트 비트스트림을 운반하는 트랙으로 트랙 참조가 도입됨.

GPCCComponentTypeBox는 GPCCComponentTypeStruct()를 포함할 수 있다. GPCCComponentTypeBox가 G-PCC 비트스트림의 일부 또는 모두를 캐리하는 트랙들의 샘플 엔트리에 존재하면, GPCCComponentTypeStruct()는 각 트랙에 의해 캐리되는 하나 이상의 G-PCC 컴포넌트들의 타입(예를 들어, 지오메트리, 어트리뷰트)을 지시할 수 있다. 예를 들어, GPCCComponentTypeStruct()에 포함된 gpcc_type 필드의 값이 2이면 지오메트리 컴포넌트를 지시하고, 4이면 어트리뷰트 컴포넌트를 지시할 수 있다. 또한, gpcc_type 필드의 값이 4 즉, 어트리뷰트 컴포넌트를 지시하면, SPS()에 시그널링된 어트리뷰트의 식별자를 지시하는 AttrIdx 필드를 더 포함할 수 있다.

G-PCC 비트스트림이 멀티플 트랙들로 캐리되는 경우에, 샘플 엔트리의 신택스는 다음과 같이 정의될 수 있다.

Sample Entry Type: 'gpe1', 'gpeg', 'gpc1' or 'gpcg'

Container: SampleDescriptionBox

Mandatory: 'gpc1', 'gpcg' sample entry is mandatory

Quantity: One or more sample entries may be present

샘플 엔트리 타입 'gpc1', 'gpcg', 'gpc1' 또는 'gpcg'는 필수적이며, 하나 이상의 샘플 엔트리들이 존재할 수 있다. 멀티플 트랙들(예를 들어, 지오메트리 또는 어트리뷰트 트랙들)은 'gpc1', 'gpcg', 'gpc1' 또는 'gpcg'의 샘플 엔트리 타입을 갖는 VolumetricVisualSampleEntry를 사용할 수 있다. 'gpe1' 샘플 엔트리에서, 모든 파라미터 세트는 setupUnit 어레이에 존재할 수 있다. 'gpeg' 샘플 엔트리에서, 파라미터 세트가 해당 어레이나 스트림에 존재할 있다. 'gpe1' 또는 'gpeg' 샘플 엔트리에서, GPCCComponentTypeBox가 존재하지 않아야 할 수 있다. 'gpc1' 샘플 엔트리에서, SPS, GPS 및 타일 인벤토리는 G-PCC 지오메트리 비트스트림을 전달하는 트랙의 SetupUnit 어레이에 존재할 수 있다. 모든 관련 APS는 G-PCC 어트리뷰트 비트스트림을 전달하는 트랙의 SetupUnit 어레이에 존재할 수 있다. 'gpcg' 샘플 엔트리에서, SPS, GPS, APS 또는 타일 인벤토리가 해당 어레이나 스트림에 존재할 수 있다. 'gpc1' 또는 'gpcg' 샘플 어레이에서, GPCCComponentTypeBox가 존재해야 할 수 있다.

G-PCC 샘플 엔트리의 신택스에 대한 일 예는 아래와 같다.

aligned(8) class GPCCSampleEntry()

extends VolumetricVisualSampleEntry (codingname) {

GPCCConfigurationBox config; //mandatory

GPCCComponentTypeBox type; // optional

}

베이스 클래스 VolumetricVisualSampleEntry의 compressorname, 즉 codingname은 권장되는 "\013GPCC 코딩" 값과 함께 사용되는 압축기의 이름을 지시할 수 있다. "\013GPCC 코딩"에서, 첫 번째 바이트(\013으로 표시되는 8진수 13 또는 10진수 11)는 리메이닝 바이트의 수로서, 나머지 문자열(string)의 바이트 수를 나타낼 수 있다. congif는 G-PCC 디코더 컨피규레이션 정보를 포함할 수 있다. info는 각 트랙에서 캐리되는 G-PCC 컴포넌트 정보를 나타낼 수 있다. info는 트랙에서 캐리되는 컴포넌트 타일을 나타낼 수 있으며, 또한 G-PCC 어트리뷰트 트랙에서 캐리되는 G-PCC 컴포넌트의 어트리뷰트 이름, 인덱스, 및 어트리뷰트 타입을 나타낼 수 있다.

샘플 포맷

G-PCC 비트스트림이 싱글 트랙에 저장되는 경우에, 샘플 포맷에 대한 신택스는 아래와 같다.

aligned(8) class GPCCSample

{

unsigned int GPCCLength = sample_size; //Size of Sample

for (i=0; i< GPCCLength; ) // to end of the sample

{

tlv_encapsulation gpcc_unit;

i += (1+4)+ gpcc_unit.tlv_num_payload_bytes;

}

위 신택스에서, 각 샘플(GPCCSample)은 싱글 포인트 클라우드 프레임에 해당하며, 동일 프리젠테이션 타임(same presentation time)에 속하는 하나 이상의 TLV 인캡슐레이션 구조들로 구성될 수 있다. 각 TLV 인캡슐레이션 구조는 싱글 타입의 TLV 페이로드를 포함할 수 있다. 이에 더하여, 하나의 샘플은 독립적(예, 싱크 샘플)일 수 있다. GPCCLength는 해당 샘플의 길이를 나타내고, gpcc_unit는 싱글 G-PCC 컴포넌트(예, 지오메트리 슬라이스)를 포함하는 TLV 인캡슐레이션 구조의 인스턴스를 포함할 수 있다.

G-PCC 비트스트림이 멀티플 트랙에 저장되는 경우에, 각 샘플은 단일 포인트 클라우드 프레임에 해당할 수 있으며, 서로 다른 트랙에서 동일한 포인트 클라우드 프레임에 기여하는 샘플은 동일한 프레젠테이션 시간을 가져야 할 수 있다. 각 샘플은 샘플 엔트리의 GPCCComponentInfoBox에 표시된 G-PCC 컴포넌트의 하나 이상의 G-PCC 유닛들과 파라미터 세트 또는 타일 인벤토리 중 하나를 운반하는 0개 이상의 G-PCC 유닛들로로 구성되어야 할 수 있다. 파라미터 세트 또는 타일 인벤토리를 포함하는 G-PCC 유닛이 샘플에 존재하는 경우, 해당 F-PCC 샘플은 G-PCC 컴포넌트의 G-PCC 유닛 앞에 나타나야 할 수 있다. 각 샘플은 어트리뷰트 데이터 유닛을 포함하는 하나 이상의 G-PCC 유닛들, 파라미터 세트를 캐리하는 0개 이상의 G-PCC 유닛들을 포함할 수 있다. G-PCC 비트스트림이 멀티플 트랙에 저장되는 경우에, 샘플 포맷에 대한 신택스 및 시맨틱스는 앞서 설명한 G-PCC 비트스트림이 싱글 트랙에 저장되는 경우에 대한 신택스 및 시맨틱스와 동일할 수 있다.

서브 샘플

수신 장치에서는 지오메트리 슬라이스가 먼저 디코딩되고, 디코드딩 지오메트리를 기반으로 어트리뷰트 슬라이스가 디코딩될 필요가 있기 때문에, 각 샘플이 멀티플 TLV 인캡슐레이션 구조들로 구성되는 경우에 해당 샘플에서 각 TLV 인캡슐레이션 구조를 액세스할 필요가 있다. 또한, 하나의 샘플이 멀티플 TLV 인캡슐레이션 구조들로 구성되면, 멀티플 TLV 인캡슐레이션 구조들 각각은 서브 샘플로서 저장될 수 있다. 서브 샘플은 G-PCC 서브 샘플로 지칭될 수 있다. 예를 들어, 하나의 샘플이 파라미터 세트를 포함하는 파라미터 세트 TLV 인캡슐레이션 구조와 지오메트리 슬라이스를 포함하는 지오메트리 TLV 인캡슐레이션 구조 그리고 어트리뷰트 슬라이스를 포함하는 어트리뷰트 TLV 인캡슐레이션 구조를 포함한다면, 파라미터 세트 TLV 인캡슐레이션 구조, 지오메트리 TLV 인캡슐레이션 구조, 그리고 어트리뷰트 TLV 인캡슐레이션 구조는 각각 서브 샘플로서 저장될 수 있다. 이 경우, 해당 샘플에서 각 G-PCC 컴포넌트에 액세스하는 것을 가능하게 하기 위해, 해당 서브 샘플로 캐리되는 TLV 인캡슐레이션 구조의 타입이 필요할 수 있다.

G-PCC 비트스트림이 싱글 트랙에 저장되는 경우에, G-PCC 서브 샘플은 오직 하나의 TLV 인캡슐레이션 구조를 포함할 수 있다. 하나의 SubSampleInformationBox가 moov 박스의 샘플 테이블 박스(SampleTableBox, stbl)에 존재하거나, 또는 무비 프래그먼트 박스(MovieFragmentBox, moof)들 각각의 트랙 프래그먼트 박스(TrackFragmentBox, traf)에 존재할 수 있다. 만일 SubSampleInformationBox가 존재한다면, TLV 인캡슐레이션 구조의 8비트 타입 값이 SubSampleInformationBox 내 서브 샘플 엔트리의 32-bit codec_specific_parameters field에 포함될 수 있다. 만약, TLV 인캡슐레이션 구조가 어트리뷰트 페이로드를 포함한다면, 어트리뷰트 인덱스의 6비트 값이 SubSampleInformationBox 내 서브 샘플 엔트리의 32-bit codec_specific_parameters field에 포함될 수 있다. 실시예들에 따라, 각 서브 샘플의 타입은 SubSampleInformationBox 내 서브 샘플 엔트리의 codec_specific_parameters field를 파싱함에 의해 식별될 수 있다. SubSampleInformationBox의 codec_specific_parameters는 다음과 같이 정의될 수 있다.

if (flags == 0) {

unsigned int(8) PayloadType;

if(PayloadType == 4) { // attribute payload

unsigned int(6) AttrIdx;

bit(18) reserved = 0;

}

else

bit(24) reserved = 0;

} else if (flags == 1) {

unsigned int(1) tile_data;

bit(7) reserved = 0;

if (tile_data)

unsigned int(24) tile_id;

else

bit(24) reserved = 0;

}

위의 서브 샘플 신택스에서, payloadType은 해당 서브 샘플 내 TLV 인캡슐레이션 구조의 tlv_type을 지시할 수 있다. 예를 들어, payloadType의 값이 4이면 어트리뷰트 슬라이스(즉, 어트리뷰트 슬라이스)를 지시할 수 있다. attrIdx는 해당 서브 샘플 내 어트리뷰트 페이로드를 포함하는 TLV 인캡슐레이션 구조의 어트리뷰트 정보의 식별자를 지시할 수 있다. attrIdx는 해당 서브 샘플 내 어트리뷰트 페이로드를 포함하는 TLV 인캡슐레이션 구조의 ash_attr_sps_attr_idx와 같을 수 있다. tile_data는 서브 샘플이 하나의 타일 또는 다른 타일을 포함하는지 여부를 나타낼 수 있다. tile_data의 값이 1이면, 서브 샘플이 하나의 G-PCC 타일에 대응하는 지오메트리 데이터 유닛 또는 어트리뷰트 데이터 유닛을 포함하는 TLV 인캡슐레이션 구조(들)를 포함한다는 것을 나타낼 수 있다. tile_data의 값이 0이면, 서브 샘플이 각 파라미터 세트, 타일 인벤토리 또는 프레임 바운더리 마커를 포함하는 TLV 인캡슐레이션 구조(들)를 포함한다는 것을 나타낼 수 있다. tile_id는 서브 샘플이 타일 인벤토리 내에서 연관되는 G-PCC 타일의 인덱스를 나타낼 수 있다.

G-PCC 비트스트림이 멀티플 트랙에 저장되는 경우에(ISOBMFF에서 G-PCC 데이터의 멀티플 트랙 인캡슐레이션의 경우에) 서브 샘플이 존재한다면, SampleTableBox 또는 각 MovieFragmentBox의 TrackFragmentBox에서 플래그(flag)가 1인 SubSampleInformationBox만 존재해야 할 수 있다. G-PCC 비트스트림이 멀티플 트랙에 저장되는 경우에, 신택스 요소들과 시멘틱스는 G-PCC 비트스트림이 싱글 트랙에 저장되는 경우의 신택스 요소들과 시멘틱스에서 flag==1인 경우와 동일할 수 있다.

트랙들 간의 참조

G-PCC 비트스트림이 멀티플 트랙에서 캐리되는 경우에(즉, G-PCC 지오메트리 비트스트림과 어트리뷰트 비트스트림이 서로 다른(분리된) 트랙들에서 캐리되는 경우에), 트랙들 간을 연결하기 위하여, 트랙 참조 툴이 사용될 수 있다. 하나의 TrackReferenceTypeBoxes가 G-PCC 트랙의 TrackBox 내 TrackReferenceBox에 추가될 수 있다. TrackReferenceTypeBox는 G-PCC 트랙이 참조하는 트랙들을 지정하는 track_IDs의 어레이를 포함할 수 있다.

실시예들에 따라, 본 개시는 G-PCC 데이터(이하에서는, G-PCC 비트스트림, 인캡슐레이션된 G-PCC 비트스트림, 또는 G-PCC 파일라고 지칭할 수 있다)의 운반(carriage)에 시간적 확장성(temporal scalability)을 지원하기 위한 장치 및 방법들을 제공할 수 있다. 또한, 본 개시는 G-PCC 비트스트림을 파일 내 단일 트랙에 효율적으로 저장하거나 복수의 트랙들에 분할하여 저장하고, 이에 대한 시그널링을 제공하는 포인트 클라우드 콘텐트 서비스 제공을 위한 장치 및 방법들을 제안할 수 있다. 또한, 본 개시는 저장된 G-PCC 비트스트림에 대한 효율적인 접근을 지원할 수 있도록 하기 위한 파일 저장 기법을 처리하는 장치 및 방법들을 제안한다.

시간적 확장성(temporal scalability)

시간적 확장성은 독립적으로 코딩된 프레임들의 하나 이상의 서브 세트들을 추출할 가능성을 허용하는 기능을 의미할 수 있다. 또한, 시간적 확장성은 G-PCC 데이터를 복수 개의 서로 다른 시간적 레벨들(temporal levels)로 구분하고, 서로 다른 시간적 레벨들에 속하는 각 G-PCC 프레임들을 서로 독립적으로 처리하는 기능을 의미할 수 있다. 시간적 확장성이 지원되면, G-PCC 플레이어(또는, 본 개시의 전송 장치 및/또는 수신 장치)는 G-PCC 컴포넌트들 중에서 원하는 컴포넌트(타겟 컴포넌트)에 효과적(effectively)으로 액세스할 수 있다. 또한, 시간적 확장성이 지원되면, G-PCC 프레임이 서로 독립적으로 처리되므로, 시스템 레벨에서 시간적 확장성 지원이 보다 유연한 시간적 서브 레이어링(sub-layering)으로 표현될 수 있다. 또한, 시간적 확장성이 지원되면, G-PCC 데이터를 처리하는 시스템(포인트 클라우드 콘텐트 제공 시스템)이 네트워크 기능(capability)이나 디코더 기능(capability) 등과 일치하도록 높은 수준에서 데이터를 조작할 수 있도록 하므로, 포인트 클라우드 콘텐트 제공 시스템의 성능을 향상시킬 수 있다.

실시예

시간적 확장성이 지원되면, G-PCC 콘텐트가 복수의 타일 트랙에서 캐리될 수 있으며, 시간적 확장성에 대한 정보가 시그널링될 수 있다. 시간적 확장성(temporal scalability)에 대한 정보(이하에서는 '시간적 확장성 정보'라 한다)는 시간적 레벨에 대한 정보 및 시간적 레벨 트랙에 대한 정보가 포함될 수 있다. 여기서 시간적 레벨에 대한 정보는 시간적 레벨의 식별자(identifier)를 나타내는 정보 등을 포함할 수 있다. 여기서, 식별 정보는 시간적 레벨의 식별자에 대한 리스트일 수 있으며, temporal_level_id와 같은 신택스로 표현될 수 있다. 즉, 시간적 확장성 정보는 시간적 레벨에 대한 정보(이하에서는 '시간적 레벨 정보'라 한다)를 포함할 수 있다.

G-PCC 시간적 레벨은 실제 비트스트림 시퀀스의 프레임 레이트보다 더 작은 프레임 레이트를 갖는 서브 시퀀스를 구성하는 G-PCC 비트스트림 프레임의 서브세트일 수 있다. 각각의 G-PCC 프레임은 특정 시간적 레벨과 연관될 수 있으며, 각 시간적 레벨의 프레임에 대한 프레임 주파수는 고정될 수 있고, 각 시간적 레벨은 각 시간적 레벨 식별자, 즉 시간적 식별자에 의해 식별될 수 있다.

한편, 시간적 확장성 정보에는 G-PCC 콘텐트가 복수 개의 트랙들에 저장되는지 여부에 대한 정보를 포함할 수 있다. 다시 말해, 시간적 확장성 정보에는 복수 개의 시간적 레벨 트랙이 존재하는지 여부를 나타내는 정보를 포함할 수 있으며, multiple_temporal_level_tracks_flag와 같은 신택스로 표현될 수 있다. 즉, 시간적 확장성 정보는 시간적 레벨 트랙에 대한 정보(이하에서는 '시간적 레벨 트랙 정보'라 한다)를 포함할 수 있다.

일 예로서, 시간적 확장성 정보는 트랙 혹은 타일 베이스 트랙(tile base track)에 존재하는 박스와 타일 트랙에 존재하는 박스, 즉 시간적 확장성 정보에 대한 박스(이하에서는 '시간적 확장성 정보 박스' 혹은 '확장성 정보 박스'라 한다)를 이용하여 캐리(carry)될 수 있다. 시간적 확장성 정보를 캐리하는 GPCC 트랙 혹은 타일 베이스 트랙에 존재하는 박스는 GPCCScalabilityInfoBox일 수 있으며, 타일 트랙에 존재하는 박스는 GPCCTileScalabilityInfoBox일 수 있다. GPCCTileScalabilityInfoBox는 GPCCScalabilityInfoBox가 존재하는 타일 베이스 트랙과 연관되는 각 타일 트랙에 존재할 수 있다. 뿐만 아니라, 일 예로서, 시간적 확장성 정보는 상기에서 설명한 디코더 컨피규레이션 정보에 포함될 수 있다. 일 예로서, 디코더 컨피규레이션 정보는 GPCC 디코더 컨피규레이션 박스(GPCCDecoderConfigurationBox)로 캐리될 수 있으며, 디코더 컨피규레이션 박스의 GPCC 디코더 컨피규레이션 레코드(GPCCDecoderConfigurationRecord)에 포함되어 캐리될 수도 있다.

여기서, 타일 베이스 트랙은 'gpeb' 혹은 'gpcb'인 샘플 엔트리 유형을 갖는 트랙일 수 있다. 한편, GPCCScalabilityInfoBox가 'gpe1', 'gpeg', 'gpc1', 'gpcg', 'gpcb', 혹은 'gpeb' 유형의 샘플 엔트리를 갖는 트랙에 존재하는 경우, 시간적 확장성이 지원됨을 나타낼 수 있으며, 트랙에 존재하는 시간적 레벨에 대한 정보를 제공할 수 있다. 이러한 박스는 시간적 확장성이 사용되지 않는 경우에는 트랙 내에 존재하지 않을 수 있다. 또한, 모든 프레임이 단일한 시간적 레벨에서 시그널링되는 경우, 'gpe1', 'gpeg', 'gpc1', 'gpcg', 'gpcb', 혹은 'gpeb' 유형의 샘플 엔트리를 갖는 트랙에 존재하지 않을 수 있다. 한편, 'gpt1' 유형의 샘플 엔트리를 갖는 트랙에는 이러한 박스가 존재하지 않을 수 있다. 샘플 엔트리에 시간적 확장성 정보에 대한 박스(즉, 시간적 확장성 정보 박스)를 포함하는 GPCC 트랙은 시간적 레벨 트랙으로 표현될 수 있다.

한편, 시간적 확장성이 지원되는 경우, 현재의 시간적 확장성 정보에 의하면, 서로 다른 시간적 레벨에 속하는 샘플들간의 인터리빙(interleaving)이 가능한지 여부가 명확하지 않다.

또한, 시간적 확장성 정보에 포함될 수 있는 다중 시간적 레벨 트랙에 대한 정보, 즉, 시간적 레벨 트랙 정보(예를 들어, G-PCC 콘텐트가 다중 트랙으로 캐리되는지 여부를 나타내는 정보, 즉 G-PCC 파일 내 다중 시간적 레벨 트랙의 존재에 대한 정보)(예를 들어, 신택스 요소 multiple_temporal_level_tracks_flag)는 제1 값(예를 들어, 1)을 가질 때, G-PCC 비트스트림 프레임이 다중 시간적 레벨 트랙으로 그룹핑될 수 있음을 지시할 수 있다. 반면, 제2 값(예를 들어, 0)이면, 모든 시간적 레벨 샘플이 단일 트랙에 존재함을 지시할 수 있다. 그러나, 시간적 레벨 트랙 정보 값이 제1 값이더라도, 모든 트랙에 대해 시간적 레벨이 다수 존재함을 의미하는지는 명확히 정의되지 않는다. 즉, 모든 트랙들에 대해 제1 값을 의미하는 것인지 여부(시간적 레벨이 복수 개 존재하는 것인지 여부)가 명확하게 정의되지 않을 수 있다.

또한, 시간적 확장성 정보에 포함될 수 있는 시간적 레벨 정보(예를 들어, 시간적 레벨의 식별자에 대한 정보)(예를 들어, temporal_level_id)에 있어서, 현재 시간적 식별자의 값이 반드시 연속적이여야 하는지 혹은 이산적일 수 있는지가 확실하지 않아 다중 트랙에서 G-PCC 컨텐츠 처리시 트랙 체계 정의에 문제가 발생할 수 있다. 이에 따라, 시그널링 효율 상 바람직하지 않은 상황이 발생하여 문제가 될 수 있다.

위와 같은 문제를 해결하기 위해, 본 개시에 의하면, 시간적 확장성 정보를 보다 구체화하여, 서로 다른 시간적 레벨의 샘플 간의 인터리빙 가능 여부를 정의하고, 시간적 레벨 트랙 정보가 지시하는 사항이 구체화될 수 있다. 또한, 트랙의 시간적 레벨의 식별자(즉, 시간적 식별자) 간의 관계를 정의하며, 시간적 레벨의 식별자에 대한 정보가 이산적인지 여부를 정의할 수 있다.

이하, 실시예를 들어 본 개시가 제안하는 기술에 대해 상세히 설명한다.

실시예 1 - 시간적 레벨 정보 및 샘플 인터리빙(interleaving)

일 예로서, 시간적 레벨 정보 및 샘플 인터리빙에 대하여는 도 19 내지 도 22에 표현된 신택스를 참조하여 설명한다.

상기에서 설명한 바와 같이 시간적 레벨 정보는 시간적 확장성 정보에 포함되어 시그널링될 수 있다.

도 19 내지 도 22를 참조하면, 다중 시간적 레벨 트랙 정보에 포함될 수 있는 multiple_temporal_level_tracks_flag가 제1 값(예를 들어, 1)이면, 다중 시간적 레벨 트랙이 G-PCC 파일 내에 존재함을 나타낼 수 있다. 반면에, 제2 값(예를 들어, 0)이면, 모든 시간적 레벨 샘플이 단일 트랙에 존재함을 나타낼 수 있다. 한편, 시간적 확장성 정보 박스가 'gpeb' 혹은 'gpcb'인 샘플 엔트리 유형을 갖는 트랙(예를 들어, 타일 베이스 트랙)에 존재하는 경우, multiple_temporal_level_tracks_flag가 제1 값이면, 해당 트랙과 연관되는 모든 트랙(들)이 모든 시간적 레벨의 샘플을 포함함을 나타낼 수 있다. 반면에, 제2 값이면, 모든 시간적 레벨의 샘플을 포함하지 않는, 해당 트랙과 연관되는 하나 이상의 트랙이 존재함을 나타낼 수 있다.

frame_rate_present_flag는 평균 프레임 레이트 정보의 존재 여부를 나타낼 수 있다. frame_rate_present_flag의 제1 값(예를 들어, 1)은 평균 프레임 레이트 정보가 존재함을 나타낼 수 있으며, frame_rate_present_flag의 제2 값(예를 들어, 0)은 평균 프레임 레이트 정보가 존재하지 않음을 나타낼 수 있다.

시간적 레벨 정보에 포함될 수 있는 신택스 요소 num_temporal_levels는 각 트랙의 샘플에 존재하는 시간적 레벨의 수를 지시할 수 있다. 샘플 엔트리 유형이 'gpcb' 혹은 'gpeb'인 경우, num_temporal_levels는 G-PCC 프레임이 그룹핑될 최대 시간적 레벨의 수를 지시할 수 있으며, 최소 값은 1일 수 있다.

level_idc는 i-번째 시간적 레벨에 대한 레벨 코드를 포함할 수 있다.

frame_rate는 시간적 레벨의 평균 프레임 레이트를 프레임 단위로(frames/256 seconds)로 나타낼 수 있다. frame_rate의 값이 0인 경우에 이는 지정되지 않은(unspecified) 평균 프레임 레이트를 나타낼 수 있다.

시간적 레벨 정보에 포함될 수 있는 시간적 식별자에 대한 정보(예를 들어, temporal_level_id)가 지시하는 시간적 식별자의 값은 이산적으로 증가할 수 있으며, 시간적 식별자에 대한 정보는 각각 시그널링될 수 있다. 여기서 시간적 식별자 간의 간격은 특정 값으로 고정될 수 있다. 예를 들어, 시간적 식별자 값은 임의의 n만큼의 정수 값을 간격으로 증감할 수 있다. 예를 들어, 시간적 식별자가 x인 시간적 레벨의 경우 바로 다음인 시간적 레벨의 식별자는 x+a일 수 있으며, 그 다음 시간적 레벨의 식별자는 x+2a일 수 있으며, a는 임의의 정수일 수 있다. 예를 들어, a는 1일 수 있다. 일 예로서, 시간적 식별자는 시간적 레벨을 직접적으로 나타낼 수 있다. 예를 들어, 둘 이상의 트랙이 존재하고, 일 트랙의 샘플의 가장 높은 시간적 식별자가 x일 때, 애플리케이션(application)이 일 트랙의 샘플보다 더 높은 시간적 레벨의 샘플을 처리해야하면, x+1과 같은 시간적 식별자를 가진 샘플을 포함하는 트랙을 찾아야 할 수 있다.

한편, 도 20을 참조하면, 시간적 식별자 시그널링을 위해 가장 낮은 시간적 식별자(lowest temporal id)에 대한 정보(예를 들어, lowest_temporal_id)만이 시그널링될 수도 있다. 이 경우, 나머지 시간적 식별자는 가장 낮은 시간적 식별자와 시간적 레벨의 수를 나타내는 다른 정보에 기반하여 유도될 수 있다. 이 경우, 가장 낮은 시간적 식별자는 기 정의된 값일 수 있으며, 0일 수 있고, 시간적 식별자 값 간의 간격은 기 정의된 값일 수 있다. 또는, 대안적으로, 가장 낮은 시간적 레벨의 시간적 식별자는 0과 같도록 제한되지 않지만 시간적 식별자를 시그널링 하기 위해 할당된 비트 수에 의해 허용되는 범위 내의 임의의 숫자일 수 있다.

한편, 둘 이상의 트랙이 존재하고, 트랙 간의 참조가 있는 경우, 즉, 제2 트랙이 제1 트랙을 참조할 때 제2 트랙은 제1 트랙이 가지고 있는 가장 높은 시간적 레벨의 다음 시간적 레벨의 샘플을 포함한다는 것을 의미하도록 제2 트랙은 제1 트랙과 연관시킬 수 있다. 반대로, 트랙 간의 참조가 있는 경우, 제1 트랙이 제2 트랙을 참조할 때 제2 트랙은 제1 트랙이 갖는 가장 높은 시간적 레벨의 바로 다음 시간적 레벨의 샘플을 포함한다는 것을 의미하도록 제1 트랙은 다른 제2 트랙에 연관될 수 있다. 즉, 트랙 간의 참조는 트랙 간의 시간적 식별자 간에 관계가 있음을 나타낼 수 있다. 다시 말해, 트랙 간의 참조가 발생하면 참조되는 트랙은 참조하는 트랙의 시간적 식별자보다 큰 혹은 작은 시간적 식별자에 대한 샘플을 포함할 수 있다. 예를 들어, 일 트랙 TrackB가 다른 트랙 TrackA의 다음 시간적 레벨 트랙이라고 하면 TrackB는 시간적 식별자가 TrackA의 가장 높은 시간적 식별자에 1을 더한 것과 같은 샘플을 포함할 수 있다. 한편, 트랙 참조를 나타내는 특정 정보(혹은 신택스 요소)가 더 정의될 수 있으며, 별도로 시그널링될 수도 있다.

도 21을 참조하면, 트랙이 가장 낮은 시간적 레벨을 포함하는지 여부를 지정하기 위한 정보(예를 들어, has_base_tmeporal_level_id)가 시간적 레벨 정보에 포함되어 별도로 시그널링될 수도 있다. 일 예로서, 해당 정보는 플래그일 수 있으며, 값이 제1 값(예를 들어, 1)이면 트랙이 가장 낮은/기본 시간적 레벨에 속하는 샘플을 포함함을 나타낼 수 있다. 값이 제2 값(예를 들어, 0)이면 트랙이 가장 낮은/기본 시간적 레벨에 속하는 샘플을 포함하지 않음을 나타낼 수 있다. 한편, 일 트랙이 다른 트랙을 참조함을 나타내기 위한 트랙 참조 정보(예를 들어, tsrf)가 정의될 수 있다.

도 22를 참조하면, 시간적 확장성이 지원되고 코딩된 G-PCC 데이터가 다중 트랙에 저장되는 경우, 트랙은 연속적인 시간적 레벨에 속하는 샘플만을 포함할 수 있다. 다시 말해, 시간적 확장성이 적용되는 경우에 하나의 트랙은 연속하는 시간적 레벨들에 속하는 샘플들을 포함할 수 있다. 다시 말해, 상기에서 설명한 바와 같이 시간적 레벨을 나타내는 시간적 식별자 값 자체는 이산적으로 표현될 수도 있으나, 일정 순서가 있는 시간적 레벨들에 속하는 샘플을 포함할 수 있다. 예를 들어, 시간적 레벨에 대응하는 시간적 식별자가 0, 1, 2, 및 3이면, 제1 트랙은 시간적 식별자가 0 및 2인 샘플들을 포함할 수 없으며, 제2 트랙도 1 및 3인 트랙을 포함할 수 없을 수 있는데, 이는 트랙의 샘플 엔트리 타입에 기반할 수도 있다. 예를 들어, 샘플 엔트리 타입이 'gpe1', 'gpeg', 'gpc1' 혹은 'gpcg'이고 하나 이상의 시간적 레벨 트랙이 존재하는 경우에만 연속하는 시간적 레벨들에 속하는 샘플들만을 포함할 수 있다. 즉, 일 트랙이 n에서 k까지의 시간적 식별자에 해당하는 샘플을 포함하는 경우, n에서 k까지의 시간적 식별자에 해당하는 샘플을 포함하는 다른 트랙은 존재하지 않을 수 있다. 이 경우, 시간적 레벨 간의 인터리빙은 허용되지 않을 수 있다.

이에 의하면, 시간적 식별자의 값에 대한 체계를 정의함으로써 다중 트랙 G-PCC 컨텐츠의 트랙 체계를 명확하게 정의하여, 영상 부호화/복호화 효율 및 속도를 향상시키는 효과가 있으며, 시간적 식별자의 값이 연속적으로 증가하게 함으로써 시간적 식별자의 최대 비트 수 내에서 효율적으로 정보를 시그널링할 수 있게 할 수 있다. 또한, 한 트랙의 최대 시간적 레벨보다 높은 시간적 레벨의 샘플을 갖는 트랙을 참조할 수 있게 하고, 이를 다음 시간적 레벨 트랙으로 하여, 영상 부호화/복호화 효율 및 속도를 향상시키는 효과가 있다.

실시예 2 - 시간적 레벨 트랙 정보

시간적 레벨 트랙 정보에 대하여는 도 23을 참조하여 설명한다.

일 예로서, fram_rate_presnet_flag, num_temporal_levels, level_idc, 및 frame_rate 등은 상기에서 설명한 바와 같다.

한편, 시간적 레벨 트랙 정보(예를 들어, multiple_temporal_level_tracks_flag)의 값이 제1 값(예를 들어, 0)이면, G-PCC 콘텐트는 2이상의 트랙에 저장되지 않거나 오직 하나의 트랙에만 저장됨을 나타낼 수 있다. 반면, 해당 값이 제2 값(예를 들어, 1)이면, G-PCC 콘텐트는 하나 이상 또는 2 이상의 트랙에 저장될 수 있음을 나타낼 수 있다.

따라서, 본 개시에 의하면, 시간적 레벨 트랙 정보가 G-PCC 비트스트림 프레임이 다중 시간적 레벨 트랙으로 그룹핑됨을 나타낼 때, 모든 트랙에 대해 시간적 레벨이 복수 개 존재함을 나타내는지 여부를 명확히 지시하므로, 부호화 및 복호화 효율을 향상시킬 수 있다.

실시예 3 - 부호화 및 복호화 과정

도 24는 포인트 클라우드 데이터의 수신 장치가 수행하는 방법에 대한 예시이고, 도 25는 포인트 클라우드 데이터의 전송 장치가 수행하는 방법에 대한 예시이다. 일 예로서, 수신 장치 혹은 전송 장치는 본 개시에서 도면을 참조하여 설명한 것을 포함할 수 있으며, 상기에서 실시예를 설명하기 위해 가정한 수신 장치 혹은 전송 장치와 동일한 것일 수 있다. 즉, 도 24을 수행하는 수신 장치 및 도 25를 수행하는 전송 장치는 상기에서 설명한 다른 실시예도 실시할 수 있음은 자명하다.

일 예로서, 도 24를 참조하면, 수신 장치는 G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득(S2401)할 수 있다. G-PCC 파일은 전송 장치로부터 전송되어 획득된 것일 수 있다. 이후, 수신 장치는 시간적 확장성 정보를 기반으로 3차원 포인트 클라우드를 복원(S2402)할 수 있으며, 시간적 확장성 정보는 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함할 수 있으며, 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

다른 일 예로서, 도 25를 참조하면, 전송 장치는 3차원 공간의 포인트 클라우드 데이터에 시간적 확장성이 적용되는지 여부를 결정(S2501)할 수 있으며, 시간적 확장성 정보 및 상기 포인트 클라우드 데이터를 포함하여 G-PCC 파일을 생성(S2502)할 수 있다. 여기서, 시간적 확장성 정보는 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고, 시간적 레벨의 식별자 값은 이산적인 값으로 표현될 수 있다.

예를 들어, 제1 신택스 요소는 temporal_level_id일 수 있다. 일 예로서, 시간적 레벨의 식별자 값은 동일한 값만큼의 간격을 갖는 이산적인 값일 수 있으며, 간격은 1일 수 있다. 한편, 시간적 레벨 트랙 마다 서로 다른 상기 시간적 레벨의 식별자의 샘플이 포함될 수도 있다. 즉, 일 트랙에 포함된 시간적 레벨의 샘플은 다른 트랙에 포함되지 않을 수도 있다. 한편, 시간적 레벨 트랙은 둘 이상의 시간적 레벨 트랙(예를 들어, 제1 시간적 레벨 트랙(제1 트랙) 및 제2 시간적 레벨 트랙(제2 트랙))을 포함하되, 제2 시간적 레벨 트랙이 제1 시간적 레벨 트랙의 다음 트랙이면, 제2 시간적 레벨 트랙은 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값보다 큰 시간적 레벨의 식별자의 샘플을 포함할 수 있다. 일 예로서, 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값이 x 일 때, 제2 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값은 x+a 일 수 있으며, a는 1일 수 있다. 이 경우, 제1 트랙(제1 시간적 레벨 트랙)은 제2 트랙(제2 시간적 레벨 트랙)을 참조할 수 있으며, 제2 트랙이 제1 트랙을 참조할 수도 있다. 한편, 시간적 확장성 정보는 복수의 시간적 레벨 트랙의 존재 여부에 대한 제2 신택스 요소(예를 들어, multiple_temporal_level_tracks_flag)를 더 포함하되, 제2 신택스 요소의 제1 값은 하나의 시간적 레벨 트랙이 존재함을 나타내고, 제2 신택스 요소의 제2 값은 복수의 시간적 레벨 트랙이 존재함을 나타낼 수 있다. 일 예로서, 제1 값은 0이고 제2 값은 1일 수 있다. 한편, 시간적 레벨 트랙은 연속적인 시간적 레벨의 샘플만을 포함할 수도 있다. 즉, 일 시간적 레벨 트랙은 시간적 식별자 간의 간격이 임의의 정수인 a일 때, 시간적 식별자가 x, x+a, x+2a … 인 샘플만을 포함할 수도 있다. 또한, 시간적 레벨 트랙 간에는 서로 다른 시간적 레벨의 샘플만이 포함될 수도 있다. 즉, 특정 시간적 레벨의 샘플은 특정 트랙에만 포함되고, 다른 트랙에는 포함되지 않을 수 있다. 즉, 트랙은 샘플의 시간적 레벨에 대하여 상호배타적일 수 있다. 이 때, 트랙 간의 참조는 가능할 수 있으나, 시간적 레벨 간의 인터리빙은 허용되지 않을 수 있다.

본 개시의 실시예에 의하면, 시간적 확장성 정보의 시멘틱스를 명확히 하여 영상 부호화/복호화 효율을 향상시킬 수 있다.

본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

본 개시에 따른 실시예들은 포인트 클라우드 콘텐트를 제공하는데 이용될 수 있다. 또한, 본 개시에 따른 실시예들은 포인트 클라우드 데이터를 부호화/복호화하는데 이용될 수 있다.

Claims

포인트 클라우드 데이터의 수신 장치에서 수행되는 방법으로서,

G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득하는 단계; 및

상기 시간적 확장성 정보를 기반으로 상기 3차원 포인트 클라우드를 복원하는 단계;를 포함하며

상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고,

상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현되는, 방법.
제1 항에 있어서,

상기 시간적 레벨의 식별자 값은 동일한 값만큼의 간격을 갖는 이산적인 값인, 상기 간격은 1인, 방법.
제2 항에 있어서,

상기 시간적 레벨 트랙 마다 서로 다른 상기 시간적 레벨의 식별자의 샘플이 포함되는, 방법.
제2 항에 있어서,

상기 시간적 레벨 트랙은 제1 시간적 레벨 트랙 및 제2 시간적 레벨 트랙을 포함하되,

상기 제2 시간적 레벨 트랙이 상기 제1 시간적 레벨 트랙의 다음 트랙이면,

상기 제2 시간적 레벨 트랙은 상기 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값보다 큰 시간적 레벨의 식별자의 샘플을 포함하는, 방법.
제4 항에 있어서,

상기 제2 시간적 레벨 트랙은 상기 제1 시간적 레벨 트랙의 최대 시간적 레벨의 식별자 값에 1을 더한 식별자 값의 샘플을 포함하는, 방법.
제1 항에 있어서,

상기 시간적 확장성 정보는 복수의 시간적 레벨 트랙의 존재 여부에 대한 제2 신택스 요소를 더 포함하되,

상기 제2 신택스 요소의 제1 값은 오직 하나의 시간적 레벨 트랙이 존재함을 나타내고,

상기 제2 신택스 요소의 제2 값은 복수의 시간적 레벨 트랙이 존재함을 나타내는, 방법.
제6 항에 있어서, 상기 제1 값은 0인, 방법.
제6 항에 있어서,

상기 제2 값은 1인, 방법.
제1 항에 있어서,

상기 시간적 레벨 트랙은 연속적인 시간적 레벨의 샘플만을 포함하는, 방법.
제1 항에 있어서,

상기 시간적 레벨 트랙 간에는 서로 다른 시간적 레벨의 샘플만이 포함되는, 방법.
포인트 클라우드 데이터의 전송 장치에서 수행되는 방법으로서,

3차원 공간의 포인트 클라우드 데이터에 시간적 확장성이 적용되는지 여부를 결정하는 단계; 및

시간적 확장성 정보 및 상기 포인트 클라우드 데이터를 포함하여 G-PCC 파일을 생성하는 단계;를 포함하되,

상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고,

상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현되는, 방법.
포인트 클라우드 데이터의 수신 장치로서,

메모리; 및

적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

G-PCC 파일을 기반으로 3차원 공간의 포인트 클라우드의 시간적 확장성 정보를 획득하고,

상기 시간적 확장성 정보를 기반으로 상기 3차원 포인트 클라우드를 복원하며

상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고,

상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현되는, 수신 장치.
포인트 클라우드 데이터의 전송 장치로서,

메모리; 및

적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

3차원 공간의 포인트 클라우드 데이터에 시간적 확장성이 적용되는지 여부를 결정하고,

시간적 확장성 정보 및 상기 포인트 클라우드 데이터를 포함하여 G-PCC 파일을 생성하되,

상기 시간적 확장성 정보는 상기 시간적 레벨 트랙 내 샘플의 시간적 레벨의 식별자에 대한 제1 신택스 요소를 포함하고,

상기 시간적 레벨의 식별자 값은 이산적인 값으로 표현되는, 전송 장치.