KR102655630B1

KR102655630B1 - 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치

Info

Publication number: KR102655630B1
Application number: KR1020217001492A
Authority: KR
Inventors: 입에릭; 배재현; 양현구
Original assignee: 삼성전자주식회사
Priority date: 2018-10-08
Filing date: 2019-10-08
Publication date: 2024-04-08
Also published as: KR20210056999A; WO2020076058A1; CN113170088B; CN113170088A; US20220053216A1; US11606576B2; EP3843385A1; EP3843385A4

Abstract

본 개시는 3차원(3 Dimensional, 3D) 비디오 컨텐츠를 포함하는 미디어 파일을 생성하고 전송하는 방법 및 장치에 관한 것이다. 또한, 본 개시는 수신된 미디어 파일로부터 3차원 비디오 컨텐츠를 복원하고 재생하는 방법 및 장치에 관한 것이다.
본 개시의 일 실시 예의 일 측면에 따르면, 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법은, 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스 내에 삽입하는 단계; 상기 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입하는 단계; 및 상기 복수의 구성 요소들 각각에 대한 진입 점(entry point)에 대한 정보를 상기 제2 트랙 내에 삽입하는 단계를 포함할 수 있다.

Description

3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치

본 개시는 3차원(3 Dimensional, 3D) 비디오 컨텐츠를 포함하는 미디어 파일을 생성하고 전송하는 방법 및 장치에 관한 것이다. 또한, 본 개시는 수신된 미디어 파일로부터 3차원 비디오 컨텐츠를 복원하고 재생하는 방법 및 장치에 관한 것이다.

포인트 클라우드(point cloud)는 방대한 양의 포인트의 집합을 의미하며, 대용량의 3차원 데이터는 포인트 클라우드로 표현될 수 있다. 포인트 클라우드는 2차원 이미지와는 비교되는 값으로, 3차원 상의 한 포인트를 표현하는 방법이고, 위치 좌표와 색상을 동시에 포함할 수 있는 벡터 형태이다. 예를 들어, 포인트 클라우드는 (x, y, z, R, G, B)와 같이 표현될 수 있다. 무수히 많은 색상과 위치 데이터들이 모여서 공간적인 구성을 이루는 포인트 클라우드는 밀도가 높아지면 높아질 수록 점점 더 구체적인 데이터가 되면서 하나의 3차원 모델로서의 의미를 가지게 된다.

3차원 데이터를 표현하는 포인트 클라우드는 상당량의 메모리 및 프로세서 리소스를 차지하기 때문에, 포인트 클라우드를 전송하기 위해서는 포인트 클라우드를 압축하는 방법이 요구된다. 따라서 이러한 3차원 데이터를 효율적으로 압축하는 방법이 요구된다. 나아가 이러한 3차원 데이터를 프로세싱하기 위한 방법이 요구된다.

기존의 미디어 파일 형식에 따라 포인트 클라우드 컨텐츠를 운반하기 위해서는, 포인트 클라우드라는 새로운 형태의 데이터에 적합한 새로운 형식이 정의될 필요가 있다.

본 개시의 일 실시 예의 일 측면에 따르면, 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법은, 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스 내에 삽입하는 단계; 상기 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입하는 단계; 및 상기 복수의 구성 요소들 각각에 대한 진입 점(entry point)에 대한 정보를 상기 제2 트랙 내에 삽입하는 단계를 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따라 3차원 비디오 컨텐츠를 압축하여 전송하는 장치의 동작 과정을 도시한다.
도 2는 본 개시의 일 실시 예에 따라 3차원 비디오 컨텐츠를 수신하여 출력하는 수신 장치의 동작 과정을 도시한다.
도 3은 본 개시의 일 실시 예에 따라 ISO 기반 미디어 파일 형식(ISOBMFF, ISO Based Media File Format)에 따른 미디어 파일 내에 PCC 컨텐츠를 운반하는 방법을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따라 3차원 비디오 컨텐츠를 압축하여 전송하는 장치 및 압축된 3차원 비디오 컨텐츠를 수신하여 재생하는 장치를 포함하는 시스템의 블록도를 도시한다.
도 5는 본 개시의 일 실시 예에 따라 포인트 클라우드 데이터가 ISOBMFF 미디어 파일 내에 저장되는 예를 도시한다.
도 6은 본 개시의 일 실시 예에 따른 전송 장치가 3차원 비디오 컨텐츠를 전송하는 방법의 흐름도를 도시한다.
도 7은 본 개시의 일 실시 예에 따른 전송 장치가 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법의 흐름도를 도시한다.
도 8은 본 개시의 일 실시 예에 따른 수신 장치가 3차원 비디오 컨텐츠를 재생하는 방법의 흐름도를 도시한다.

발명의 실시를 위한 최선의 형태

본 개시의 일 실시 예의 일 측면에 따르면, 3차원 비디오 컨텐츠를 전송하는 방법은, 포인트 클라우드 데이터를 포함하는 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 상기 2차원 비디오 프레임을 3차원 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성하는 단계; 상기 2차원 비디오 프레임을 인코딩하는 단계; 상기 인코딩된 2차원 비디오 프레임 및 상기 메타데이터를 미디어 파일로 캡슐화 하는 단계; 및 상기 캡슐화된 데이터를 패킷화 하여 전송하는 단계를 포함하고, 상기 캡슐화 하는 단계는, 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스 내에 삽입하는 단계; 및 상기 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 상기 메타데이터에 대응하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입하는 단계를 포함하고, 상기 제2 트랙은, 상기 미디어 파일을 파싱할 때, 상기 복수의 구성 요소들 각각에 대한 진입 점을 제공할 수 있다.

본 개시의 일 실시 예의 일 측면에 따르면, 3차원 비디오 컨텐츠를 전송하는 장치는, 포인트 클라우드 데이터를 포함하는 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 상기 2차원 비디오 프레임을 3차원 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성하고, 상기 2차원 비디오 프레임을 인코딩하고, 상기 인코딩된 2차원 비디오 프레임 및 상기 메타데이터를 미디어 파일로 캡슐화 하고, 상기 캡슐화된 데이터를 패킷화 하는, 적어도 하나의 프로세서; 및 상기 패킷화된 데이터를 전송하는, 통신부를 포함하고, 상기 적어도 하나의 프로세서는, 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스 내에 삽입하고, 상기 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 상기 메타데이터에 대응하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입함으로써 상기 미디어 파일을 생성하고, 상기 제2 트랙은, 상기 미디어 파일을 파싱할 때, 상기 복수의 구성 요소들 각각에 대한 진입 점을 제공할 수 있다.

본 개시의 일 실시 예의 일 측면에 따르면, 3차원 비디오 컨텐츠를 수신하는 방법은, 수신된 패킷을 처리하여 미디어 파일을 복원하는 단계; 인코딩된 2차원 비디오 프레임 및 메타데이터를 추출하기 위하여 상기 미디어 파일을 파싱하는 단계; 상기 인코딩된 2차원 비디오 프레임을 디코딩하는 단계; 및 상기 2차원 비디오 프레임 및 상기 메타데이터에 기초하여 상기 3차원 비디오 컨텐츠를 복원하고 출력하는 단계를 포함하고, 상기 미디어 파일을 파싱하는 단계는, 상기 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별하는 단계; 상기 메타데이터 박스로부터 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 상기 메타데이터를 포함하는 제2 트랙을 식별하는 단계; 및 상기 제2 트랙으로부터 상기 미디어 데이터 박스 내의 상기 복수의 구성 요소들 각각에 대한 진입 점을 식별하는 단계를 포함할 수 있다.

본 개시의 일 실시 예의 일 측면에 따르면 3차원 비디오 컨텐츠를 수신하는 장치는, 패킷화된 데이터를 수신하는, 통신부; 및 상기 패킷화된 데이터를 처리하여 미디어 파일을 복원하고, 인코딩된 2차원 비디오 프레임 및 메타데이터를 추출하기 위하여 상기 미디어 파일을 파싱하고, 상기 인코딩된 2차원 비디오 프레임을 디코딩하고, 상기 2차원 비디오 프레임 및 상기 메타데이터에 기초하여 상기 3차원 비디오 컨텐츠를 복원하고 출력하는, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별하고, 상기 메타데이터 박스로부터 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 상기 메타데이터를 포함하는 제2 트랙을 식별하고, 상기 제2 트랙으로부터 상기 미디어 데이터 박스 내의 상기 복수의 구성 요소들 각각에 대한 진입 점을 식별할 수 있다.

발명의 실시를 위한 형태

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

본 명세서에서 “영상”이란, 정지 영상, 동영상, 비디오 프레임, 및/또는 비디오 스트림을 모두 포함할 수 있으며, 2차원 프레임 및 3차원 프레임을 모두 포함할 수 있다. 예를 들어, "영상"은 포인트 클라우드로 표현되는 3차원 프레임 또는 360도 전방향 미디어(Omnidirectional Media) 프레임을 포함할 수 있다.

본 명세서 전반에 걸쳐 사용되는 "영상"이라는 용어는 "영상"이라는 용어 자체뿐만 아니라, "픽쳐", "프레임", "필드" 또는 "슬라이스"등 관련 분야에서 알려질 수 있는 비디오 이미지 정보의 다양한 형태들을 설명하기 위한 포괄적인 용어로서 사용된다. 예를 들어, "영상"은 비디오 컨텐츠를 구성하는 복수의 픽쳐들 또는 복수의 프레임들 중 하나를 의미할 수도 있고, 복수의 픽쳐들 또는 복수의 프레임들을 포함하는 비디오 컨텐츠 전체를 의미할 수도 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시 예에 따라 3차원 비디오 컨텐츠를 압축하여 전송하는 장치의 동작 과정을 도시한다.

도 1을 참조하면 본 개시의 일 실시 예에 따른 전송 장치(10)의 미디어 소스(11)는, 직접 캡쳐하거나 미리 저장된 하나 이상의 3차원 오브젝트를 획득하고 출력할 수 있다. 3차원 오브젝트는 예를 들어, 포인트 클라우드 데이터를 포함하는 ply 파일들일 수 있다. 포인트 클라우드란, 3차원 공간 내에서 색상 값을 갖는 각 포인트(또는, 복셀)들의 집합으로 표현되는 영상 데이터를 의미한다. 3차원 오브젝트는, 복수의 포인트 클라우드 프레임들을 포함하는 3차원 비디오 컨텐츠일 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(10)의 전처리부(12)는, 3차원 오브젝트를 2차원 비디오 인코더로 압축하기 위한 전처리 과정을 수행할 수 있다. 전처리부(12)는, 3차원 오브젝트로부터 비디오 인코더(13)의 입력으로 사용될 비디오 프레임과 수신 장치에서 3차원 오브젝트를 복원하기 위해 필요한 메타데이터를 출력할 수 있다.

전처리부(12)는, 3차원 오브젝트에 포함되는 3차원 이미지 데이터를 2D 평면 상에 프로젝션 함으로써 적어도 하나의 2D 이미지를 생성할 수 있다. 일 실시 예에 따른 전처리부(12)는, 3차원 공간 내의 전 방향 이미지를 정해진 포맷의 사각형 픽쳐에 투영하는 프로젝션을 수행할 수 있다. 전처리부(12)는, 프로젝션된 2D 이미지로부터 2D 비디오 프레임을 생성할 수 있다.

예를 들어, 전처리부(12)는, 3차원 포인트 클라우드에 포함되는 복수의 포인트들을 2D 평면으로 프로젝션함으로써 패치를 생성할 수 있다. 3차원 포인트 클라우드에 포함되는 복수의 포인트들은, 포인트의 노말 벡터의 방향, 포인트의 위치, 및 포인트의 색상 중 적어도 하나에 기초하여 그룹핑될 수 있다. 전처리부(12)는, 그룹핑된 포인트들을 평면 상에 프로젝션함으로써 패치를 생성할 수 있다. 전처리부(12)는, 유사성이 높은 패치들을 분류하고, 분류된 패치들을 모아서 패킹함으로써 지오메트리 영상(geometry image), 텍스쳐 영상(texture image), 및 점유 맵 영상(occupancy map image)을 생성할 수 있다. 지오메트리 영상은, 포인트 클라우드에 포함되는 포인트들의 위치 정보를 나타내고, 텍스쳐 영상은, 포인트들의 색상 정보를 나타낼 수 있다. 점유 맵 영상은, 지오메트리 영상 및 텍스쳐 영상의 픽셀들 중에서 포인트 클라우드에 관한 정보를 가지고 있는 픽셀들에 대한 정보를 나타낼 수 있다.

전처리부(12)는, 지오메트리 영상, 텍스쳐 영상 및 점유 맵 영상을 포함하는 비디오 프레임과 수신 장치에서 3차원 오브젝트를 복원하기 위해 필요한 메타데이터를 출력할 수 있다. 예를 들어, 전처리부(12)는, 메타데이터로서 보조 정보를 출력할 수 있다.

다음으로, 본 개시의 일 실시 예에 따른 전송 장치(10)는, 비디오 인코더(13)와 메타데이터 인코더(14)를 사용하여 비디오 프레임과 메타데이터를 압축할 수 있다. 구현 방법에 따라, 전송 장치(10)는, 둘 이상의 비디오 인코더(13)를 포함하거나, 메타데이터 인코더(14)를 포함하지 않을 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(10)의 ISOBMFF 캡슐화부(15)는, 비디오 인코더(13) 및 메타데이터 인코더(14)에서 압축된 비디오 데이터 및 메타데이터를 미디어 파일로 캡슐화 할 수 있다. 예를 들어, ISOBMFF 캡슐화부(15)는, 압축된 비디오 데이터 및 메타데이터를 ISOBMFF 미디어 파일로 캡슐화 할 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(10)의 패킷화부(16)는, 캡슐화된 미디어 파일을 패킷 단위로 패킷화 하여 전송할 수 있다. 예를 들어, 패킷화부(16)는, MMT(MPEG Media Transport) 방식에 따라 생성된 패킷들을 포함하는 비트스트림을 전송할 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(10)는, 동일한 컨텐츠를 다양한 능력(capability)을 가지는 수신 장치에게 제공하기 위하여, 하나 이상의 비디오 코덱을 사용하여 비디오 프레임을 압축할 수 있다. 이 경우, 하나의 ISOBMFF 파일은 하나의 비디오 코덱을 이용하여 생성된 비디오 데이터만을 포함하거나, 복수의 비디오 코덱을 이용하여 생성된 비디오 데이터를 모두 포함할 수 있다.

하나의 ISOBMFF 파일이 복수의 비디오 코덱을 이용하여 생성된 비디오 데이터를 모두 포함하는 경우, 일 예로서, 수신 장치는 비디오 코덱을 선택하여 선택적으로 디코딩할 수 있다. 다른 예로서, 송신 장치와 수신 장치 간의 네트워크에 위치하는 처리 개체(processing entity)가 수신 장치의 요청 또는 미리 공유된 선호도 정보에 따라 하나의 비디오 코덱을 이용하여 생성된 비디오 데이터만을 포함하도록 파일을 수정하여 전송할 수 있다.

도 2는 본 개시의 일 실시 예에 따라 3차원 비디오 컨텐츠를 수신하여 출력하는 수신 장치의 동작 과정을 도시한다.

본 개시의 일 실시 예에 따른 수신 장치(20)의 패킷화 해지부(21)는, 수신된 패킷을 처리하여 미디어 파일을 복원할 수 있다. 또는, 패킷화 해지부(21)는, 미디어 파일을 구성하는 패킷을 모두 기다리지 않고, 수신하는 순서대로 수신되는 패킷을 처리할 수 있다. 예를 들어, 패킷화 해지부(21)는, 수신된 패킷을 처리하여 ISOBMFF 파일을 복원할 수 있다

본 개시의 일 실시 예에 따른 수신 장치(20)의 ISOBMFF 파싱부(22)는, 수신된 미디어 파일의 전체 혹은 일부를 처리하여 인코딩된 비디오 데이터와 메타데이터를 추출할 수 있다. ISOBMFF 파싱부(22)는, 수신된 ISOBMFF 파일로부터 인코딩된 비디오 데이터 및 메타데이터를 추출할 수 있다.

본 개시의 일 실시 예에 따른 수신 장치(20)는, 비디오 디코더(23)와 메타데이터 디코더(24)를 이용하여 인코딩된 비디오 데이터와 메타데이터를 디코딩할 수 있다.

본 개시의 일 실시 예에 따른 수신 장치(20)의 복원부(25)는, 디코딩된 비디오 데이터와 메타데이터를 사용하여 3차원 오브젝트를 복원할 수 있다. 본 개시의 일 실시 예에 따른 수신 장치(20)는, 화질 개선 등을 위한 후처리부를 더 포함할 수 있다.

예를 들어, 비디오 데이터에 포함되는 텍스쳐 영상, 지오메트리 영상 및 점유 맵 영상을 포함하고, 메타데이터는 패치 정보를 포함하는 보조 정보를 포함할 수 있다. 일 실시 예에 따른 복원부(25)는, 지오메트리 영상, 점유 맵 영상 및 보조 정보를 이용해서 포인트들의 지오메트리를 재구성할 수 있다. 복원부(25)는, 재구성된 지오메트리 및 텍스쳐 영상에 기초하여, 포인트 클라우드를 복원할 수 있다.

본 개시의 일 실시 예에 따른 수신 장치(20)의 렌더링부(26)는, 복원된 3차원 오브젝트를 렌더링함으로써 화면에 3차원 영상을 디스플레이 할 수 있다.

도 1을 참조하여 설명한 바와 같이, 본 개시의 일 실시 예에 따른 전송 장치(10)는, 3차원 비디오 컨텐츠를 송신 하기 위하여, 3차원 비디오 컨텐츠를 2차원 비디오 데이터로 압축하고, 소정의 미디어 파일 형식에 따라 압축된 데이터를 캡슐화 할 수 있다. 이 때, 본 개시의 일 실시 예에 따르면, 압축된 포인트 클라우드가 ISOBMFF 파일 내에 캡슐화되어 전송될 수 있다.

도 3은 본 개시의 일 실시 예에 따라 ISOBMFF에 따른 미디어 파일 내에 PCC 컨텐츠를 운반하는 방법의 일 예를 설명하기 위한 도면이다.

도 3에 도시된 바와 같이, PCC 컨텐츠(301)는 지오메트리 프레임, 텍스쳐 비디오 프레임, 및 보조 정보 및 점유 맵을 포함하는 구조를 가질 수 있다. HEVC 방식으로 부호화된 PCC 컨텐츠(301)는, HEVC NAL 유닛들(302)로 체계화(organised)될 수 있다. 그리고, HEVC NAL 유닛들(302)은 ISOBMFF 파일(303)로 패킷화될 수 있다. 압축된 PCC 컨텐츠(301)의 서로 다른 구성 요소 스트림들은, ISOBMFF 파일의 개별 트랙들에 매핑될 수 있다. 예를 들어, 도 3의 ISOBMFF 파일(303)에 도시된 바와 같이, 논리적 트랙들은 moov 박스 내에 포함되고, HEVC 또는 산술화 부호화 방식에 따라 압축된 실제 데이터는 mdat 박스 내에 포함될 수 있다.

도 3에는 PCC 컨텐츠(301)의 지오메트리 프레임 및 텍스쳐 프레임이 HEVC 방식에 의해 압축되는 경우가 도시되지만, 실시 예는 이에 제한되지 않으며 다양한 방식의 2D 비디오 코덱에 의해 압축될 수 있다.

본 개시는 ISOBMFF에서 V-PCC 데이터를 저장하기 위한 구체적인 설계를 제공할 수 있다. V-PCC 코덱 디자인의 주요한 기술적 사상은, 기존 비디오 코덱을 재사용하여 PCC 데이터의 주요 구성 요소를 압축한다는 것이다. 따라서, 본 개시의 다양한 실시 예들에 따르면, 기존 비디오 코덱으로 인코딩된 PCC 데이터 또는 향후 개발될 코덱으로 인코딩된 PCC 데이터의 저장을 위해 기존의 ISOBMFF 이 이용될 수 있다.

본 개시의 일 실시 예에 따르면, 파일의 진입 점에 대한 추가 정보가 메타데이터 트랙을 통해 제공될 수 있다. 또는, 트랙 참조 박스를 통해 메인 트랙 및 다른 구성 요소 트랙들을 가리킬 수 있다.

따라서, 본 개시의 다양한 실시 예들에 따르면, 늦은 바인딩(late binding)이라고 알려져 있는, 전달 또는 디코딩 시간에서, 인코딩 된 PCC 데이터의 유연한 조합을 지원할 수 있다. 비록, 현재의 PCC 구성요소들(PCC components)이 주로 비디오 압축 코덱으로서 HEVC를 사용하지만, PCC는 HEVC를 사용하는 것에 제한되지 않는다. PCC 데이터는 AVC와 같은 이전에 개발 된 비디오 코덱 또는 VVC와 같은 개발 중인 비디오 코덱에 의해 인코딩 될 수 있다.

또한, 모든 PCC 데이터는, 시장에서 장치에 의해 지원되는 코덱의 조합이 다를 수 있으므로 동일한 프로파일 및 레벨의 동일한 비디오 코덱으로 인코딩 될 필요는 없다. 따라서 PCC의 참조 설명 박스(reference description box for PCC)를 사용하여, 이 제안의 설계는, 다양한 비디오 코덱, 프로파일 및 레벨 선택으로 인코딩 된 동일한 PCC 데이터의 여러 버전을 저장할 수 있으며, PCC 디코더의 능력에 따라 전송 또는 디코딩 시 이들의 조합을 선택할 수 있다.

이하에서는 PCC 파일의 구조에 대해서 보다 구체적으로 설명한다.

PC 데이터의 압축은, 복수의 독립된 코덱을 사용하므로 PCC 컨텐츠를 저장하기 위해 여러 유형의 기본 스트림이 정의될 수 있다. 예를 들어, PC 데이터는, 지오메트리 데이터 기본 스트림, 텍스쳐 데이터 기본 스트림, 점유맵 데이터 기본 스트림, 및 메타데이터 기본 스트림을 포함할 수 있다.

구체적으로, 지오메트리 데이터 기본 스트림은, 2D 비디오 코덱으로 압축 된 포인트 클라우드의 지오메트리를 포함한다. 텍스쳐 데이터 기본 스트림은, 2D 비디오 코덱으로 압축 된 포인트 클라우드의 텍스쳐를 포함한다. 점유맵 데이터 기본 스트림은, 2D 비디오 코덱으로 압축 된 포인트 클라우드의 점유 맵을 포함한다.

또한, 메타데이터 기본 스트림은, PCC 파라미터 세트 및 프레임 보조 정보와 같은 기타 압축 메타데이터를 포함할 수 있다. 또한, 메타데이터 기본 스트림은, 기타 압축 메타데이터로서 점유 맵을 더 포함할 수 있다. 또한, 메타데이터 기본 스트림은, 압축된 포인트 클라우드 스트림을 포함하는 다른 기본 스트림의 목록을 제공할 수 있다.

지오메트리 데이터 기본 스트림, 텍스쳐 데이터 기본 스트림, 및 점유 맵 데이터 기본 스트림은 각각 2D 비디오 코덱을 준수하며, 호환되는 2D 비디오 미디어 트랙으로 미디어 파일 내에 저장될 수 있다. 메타데이터 기본 스트림은, PCC 파일의 진입 점을 제공해야 하며, 지오메트리 데이터 기본 스트림, 텍스처 데이터 기본 스트림, 및 점유 맵 데이터 기본 스트림에 대한 참조도 제공해야 한다.

단일 PC 프레임을 구성하는 프레임 보조 정보, 점유 맵 프레임, 지오메트리 프레임 및 텍스쳐 프레임의 샘플들은 동일한 디코딩 시간을 가져야 한다. 따라서, 이러한 샘플들에 사용 된 PCC 파라미터 세트는, 이러한 디코딩 시간과 같거나 그 이전의 디코딩 시간을 가져야한다.

본 개시는 ISOBMFF 내에 PCC 데이터를 운반하기 위한 조화로운 해결책을 제시하기 위한 다양한 주요 설계들을 제안한다. 이하에서는 본 개시의 다양한 실시 예들에 따라 ISOBMFF 내에서 PCC 데이터를 운반하기 위한 방법들을 구체적으로 설명한다.

본 개시의 다양한 실시 예들에 따르면, PCC 컨텐츠를 포함하는 ISOBMFF 파일은, PCC 메타데이터 트랙, PCC 트랙 참조 박스, (모든 PCC 구성 요소 트랙 및 메타데이터 트랙 내에서의) PCC 트랙 그룹화 타입 및 박스 및/또는 (MetaBox 내에서의) EntitytoGroupBox, 보조 정보, 및 점유 맵 메타데이터 중 적어도 하나를 포함할 수 있다.

일 실시 예에 따른 PCC 컨텐츠를 포함하는 ISOBMFF 파일은, PCC 파일을 파싱 할 때의 진입 점으로서 PCC 메타데이터 트랙을 포함할 수 있다.

일 실시 예에 따른 PCC 트랙 참조 박스는, PCC 컨텐츠의 유연한 구성(flexible configuration)을 위한 PCC 구성 요소들 트랙들의 목록을 제공할 수 있다. 그러나 실시 예는 이에 제한되지 않으면, 다른 트랙 참조 방식들이 제공될 수 있다. 구체적인 설명은 후술한다.

일 실시 예에 따른 (모든 PCC 구성 요소 트랙 및 메타데이터 트랙 내에서의) PCC 트랙 그룹화 타입 및 박스, 및/또는 (MetaBox 내에서의) EntitytoGroupBox는, 포인트 클라우드 스트림의 서로 다른 버전들을 나타내는 트랙들의 목록을 제공할 수 있다.

일 실시 예에 따른 보조 정보 및 점유 맵 메타데이터는, 함께 PCC 메타데이터 트랙 내부로 운반되거나, 보조 정보 시간-지정 메타데이터(auxiliary information timed metadata) 및 점유 맵 시간-지정 메타데이터 트랙(occupancy map timed metadata track) 내부로 각각 운반 될 수 있다.

도 4는 본 개시의 다양한 실시 예들에 따라 3차원 비디오 컨텐츠를 압축하여 전송하는 장치 및 압축된 3차원 비디오 컨텐츠를 수신하여 재생하는 장치를 포함하는 시스템의 블록도를 도시한다.

도 4에 도시된 바와 같이, 본 개시의 일 실 시예에 따른 전송 장치(100)는 3차원 비디오 컨텐츠를 압축하여 수신 장치(200)에게 전송할 수 있고, 수신 장치(200)는 수신된 비트스트림을 압축 해제 하여 3차원 비디오 컨텐츠를 복원할 수 있다. 예를 들어, 본 개시의 일 실 시예에 따른 전송 장치(100)는, 3차원 이미지와 관련된 데이터 또는 서비스를 제공하기 위한 서버일 수 있다. 본 개시의 일 실 시예에 따른 수신 장치(200)는, 3차원 이미지에 관한 데이터를 수신하여 이를 재생할 수 있는 다양한 종류의 디바이스를 포함할 수 있다. 따라서, 수신 장치(200)는, 3차원 비디오 컨텐츠를 재생하는 재생 장치라고 지칭될 수 있다.

도 4의 전송 장치(100)는 프로세서(110) 및 통신부(120)를 포함하고, 수신 장치(200)는 통신부(210) 및 프로세서(220)를 포함할 수 있다. 그러나 도시된 구성 요소 모두가 필수 구성 요소인 것은 아니다. 도시된 구성 요소보다 많은 구성 요소에 의해 전송 장치(100) 및 수신 장치(200)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 전송 장치(100) 및 수신 장치(200)가 구현될 수 있다. 예를 들어, 도 4의 프로세서(110) 및 프로세서(220)는, 메모리(미도시)에 저장된 하나 이상의 명령어들을 실행함으로써 3차원 비디오 컨텐츠와 관련된 데이터를 처리하도록 동작할 수 있다.

도 4에서 전송 장치(100)는 하나의 프로세서(110)를 포함하고 수신 장치(200)도 하나의 프로세서(220)를 포함하는 것으로 도시되었으나, 전송 장치(100) 및 수신 장치(200)는 복수의 프로세서들을 포함할 수 있다. 따라서, 이하에서 설명되는 프로세서(110) 및/또는 프로세서(220)가 수행하는 동작 및 기능은 복수의 프로세서들에 의해 나누어 수행될 수 있다.

본 개시의 일 실 시예에 따른 전송 장치(100)의 프로세서(110)는, 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성할 수 있다. 예를 들어, 프로세서(110)는, 포인트 클라우드 데이터를 포함하는 3차원 비디오 컨텐츠를 V-PCC 기술에 의해 2차원 비디오 프레임으로 압축하고, 압축된 2차원 비디오 프레임으로부터 ISOBMFF 파일을 생성할 수 있다.

구체적으로 설명하면, 본 개시의 일 실 시예에 따른 프로세서(110)는, 포인트 클라우드 데이터를 포함하는 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 2차원 비디오 프레임을 3차원 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성할 수 있다. 프로세서(110)는, 비디오 코덱 기술을 이용하여, 2차원 비디오 프레임을 인코딩할 수 있다. 프로세서(110)는, 인코딩된 2차원 비디오 프레임 및 메타데이터를 미디어 파일로 캡슐화 할 수 있다.

일 실시 예에 따른 프로세서(110)는, 미디어 파일을 생성하기 위하여, 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 미디어 파일 내의 미디어 데이터 박스 내에 삽입할 수 있다. 예를 들어, 미디어 파일이 ISOBMFF 파일인 경우, 미디어 데이터 박스는 mdat 박스일 수 있다.

일 실시 예에 따른 프로세서(110)는, 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 미디어 파일 내의 메타데이터 박스 내에 삽입할 수 있다. 예를 들어, 미디어 파일이 ISOBMFF 파일인 경우, 메타데이터 박스는 moov 박스일 수 있다.

프로세서(110)는, 복수의 구성 요소들 각각에 대한 진입 점에 대한 정보를 제2 트랙 내에 삽입할 수 있다. 따라서, 미디어 파일의 메타데이터 박스 내의 제2 트랙은, 미디어 파일이 파싱될 때, 2차원 비디오 프레임의 복수의 구성 요소들 각각에 대한 진입 점을 제공할 수 있다.

본 개시의 일 실 시예에 따른 프로세서(110)는, 캡슐화된 데이터를 패킷화 하고, 통신부(120)는, 패킷화된 데이터를 포함하는 비트스트림을 수신 장치(200)에게 전송할 수 있다.

본 개시의 일 실 시예에 따른 수신 장치(200)의 통신부(210)는 전송 장치(100)로부터 비트스트림에 포함되는 패킷화된 데이터를 수신할 수 있다.

본 개시의 일 실시 예에 따른 프로세서(220)는, 패킷화된 데이터를 처리하여 미디어 파일을 복원할 수 있다. 프로세서(220)는, 미디어 파일을 파싱함으로써, 인코딩된 2차원 비디오 프레임 및 메타데이터를 획득할 수 있다.

일 실시 예에 따른 프로세서(220)는, 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별할 수 있다. 먼저, 프로세서(220)는, 메타데이터 박스로부터 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 식별할 수 있다. 프로세서(220)는, 제2 트랙으로부터 미디어 데이터 박스 내의 복수의 구성 요소들 각각에 대한 진입 점을 식별할 수 있다. 따라서, 프로세서(220)는, 식별된 진입 점에 기초하여, 미디어 파일로부터 인코딩된 2차원 비디오 프레임 및 메타데이터를 획득할 수 있다.

프로세서(220)는, 인코딩된 2차원 비디오 프레임을 디코딩하고, 2차원 비디오 프레임 및 메타데이터에 기초하여 3차원 비디오 컨텐츠를 복원하고 출력할 수 있다. 예를 들어, 프로세서(220)는, ISOBMFF 파일로부터 V-PCC 컨텐츠를 추출하고 3차원 비디오 컨텐츠를 복원할 수 있다. V-PCC 컨텐츠는, 포인트 클라우드에 포함되는 포인트들의 위치 정보를 나타내는 지오메트리 영상, 포인트들의 색상 정보를 나타내는 텍스쳐 영상, 및 2차원 비디오 프레임에 포함되는 2D 영상의 픽셀들 중에서 포인트 클라우드에 관한 정보를 가지고 있는 픽셀들에 대한 정보를 나타내는 점유 맵 영상을 포함하는 2차원 비디오 프레임을 포함할 수 있다. 또한, V-PCC 컨텐츠는, 포인트 클라우드로부터 획득된 패치들에 대한 정보를 포함하는 보조 정보를 포함하는 메타데이터를 더 포함할 수 있다.

한편, 본 개시의 다양한 실시 예에 따른 미디어 파일은 적어도 하나 이상의 박스(box)를 포함할 수 있다. 박스(box)는 미디어 데이터 또는 미디어 데이터에 관련된 메타데이터 등을 포함하는 데이터 블록 또는 오브젝트일 수 있다. 박스들은 서로 계층적 구조를 이룰 수 있으며, 이러한 계층적 구조에 따라 데이터들이 분류됨으로써 미디어 파일이 대용량 미디어 데이터의 저장 및 전송에 적합한 형태를 가질 수 있다. 또한 미디어 파일은, 사용자가 미디어 컨텐츠의 특정 시점으로 이동하는 등, 미디어 정보에 접근하는데 있어 용이한 구조를 가질 수 있다.

일 실시 예에 따르면, 전송 장치(100)는 V-PCC 컨텐츠를 포함하는 ISOBMFF 파일을 생성하여 전송할 수 있다. 이하, 도 5를 참조하여, 본 개시의 일 실시 예에 따라 포인트 클라우드 데이터가 ISOBMFF 미디어 파일 내에 저장되는 예를 도시한다.

본 개시의 일 실시 예에 따른 미디어 파일이 ISOBMFF 파일(501)인 경우, 미디어 파일은, ftyp 박스(미도시), moov 박스(502) 및 mdat 박스(503)를 포함할 수 있다. ftyp 박스(파일 타입 박스)는 해당 미디어 파일에 대한 파일 타입 또는 호환성 관련 정보를 제공할 수 있다. moov 박스(무비 박스)(502)는 해당 미디어 파일의 미디어 데이터에 대한 메타데이터를 포함하는 박스일 수 있다. moov 박스는 모든 메타데이터들을 위한 컨테이너 역할을 할 수 있다.

mdat 박스(미디어 데이터 박스)(503)는 해당 미디어 파일의 실제 미디어 데이터들을 담는 박스일 수 있다. 미디어 데이터들은 오디오 샘플 및/또는 비디오 샘플들을 포함할 수 있는데, mdat 박스는 이러한 미디어 샘플들을 담는 컨테이너 역할을 할 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(100)는, ISOBMFF 내에 V-PCC 컨텐츠를 운반함에 있어서, 복수의 트랙들 내에 복수의 V-PCC 구성 요소들을 각각 운반할 수 있다.

압축된 V-PCC 구성 요소 스트림들을 개별적인 트랙들에 매핑함에 있어서, 논리 트랙은 moov 박스(502)에 포함되고, 실제 압축 데이터는 샘플들의 형태로 mdat 박스(503)에 포함될 수 있다.

V-PCC 컨텐츠는, 지오메트리 데이터 기본 스트림, 텍스쳐 데이터 기본 스트림, 점유맵 데이터 기본 스트림, 및 메타데이터 기본 스트림을 포함할 수 있다.

지오메트리 데이터 기본 스트림, 텍스쳐 데이터 기본 스트림, 및 점유 맵 데이터 기본 스트림은 각각 독립된 2D 비디오 코덱을 준수하며, 호환되는(compliant) 2D 비디오 미디어 트랙으로 저장될 수 있다. 메타데이터 기본 스트림은, PCC 파일의 진입 점을 제공해야 하며, 지오메트리 데이터 기본 스트림, 텍스처 데이터 기본 스트림, 및 점유 맵 데이터 기본 스트림에 대한 참조도 제공해야 한다.

도 5에 도시된 바와 같이, 지오메트리 데이터 기본 스트림, 텍스쳐 데이터 기본 스트림, 및 점유 맵 데이터 기본 스트림 각각은 지오메트리 트랙, 텍스쳐 트랙, 및 점유 맵 트랙으로 각각 저장될 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(100)는, moov 박스(502) 내에 PCC 메타데이터 트랙을 더 포함할 수 있다. PCC 메타데이터 트랙은, 수신 단에서 PCC 파일을 구문 분석 할 때 PCC 스트림의 진입 점을 제공할 수 있다. PCC 파일은 다수의 PCC 스트림들 및 다수의 PCC 스트림들에 대응하는 다수의 PCC 메타데이터 트랙들을 포함 할 수 있다. 이 때, 각 PCC 스트림의 진입 점은, PCC 메타데이터 트랙에 의해 표시될 수 있다.

일 실시 예에 따른 PCC 메타데이터 트랙은, PCC 구성 레코드(PCC configuration record), PCC 트랙 참조 박스(PCC track reference box), 및 트랙 그룹화 박스(track grouping box) 중 적어도 하나를 포함할 수 있다.

PCC 구성 레코드는, PCC 구성 레코드에 의해 설명된 구성 요소를 디코딩 하기 위해 필요한 PCC 디코더의 프로파일 및 레벨을 나타낼 수 있다.

PCC 트랙 참조 박스는, 사용 된 비디오 코덱, 프로파일, 레벨 및 트랙이 나타내는 구성 요소의 유형과 같은 트랙 관련 정보와 함께 PCC 구성 요소 트랙들의 목록을 제공할 수 있다.

트랙 그룹화 박스는, 포인트 클라우드 스트림의 서로 다른 버전들을 나타내는 트랙들의 목록들을 제공할 수 있다. 또한, 트랙 그룹화 박스는, 해당 PCC 파일/스트림의 진입 점이 될 수도 있다.

이하에서는, PCC 스트림에 대한 트랙 설계와 관련된 세가지 실시 예들을 설명한다.

먼저, PCC 스트림에 대한 트랙 설계와 관련된 일 실시 예로서, 전송 장치(100)는 PCC 트랙 참조 박스가 포함된 미디어 파일을 생성할 수 있다. PCC 트랙 참조 박스는, PCC 컨텐츠의 유연한 구성을 위한 PCC 구성 요소들 트랙들의 목록을 제공할 수 있다. PCC 트랙 참조 박스는, 구성 요소 데이터 타입, 코덱, 프로파일, 및 레벨을 나타내는 트랙 참조 정보들을 포함하는 진입 점으로서 기능할 수 있다.

아래의 [표 1]은 PCC 트랙 참조 박스의 정의를 나타낸다.

[표 1]

[표 1]에 따르면, PCC 트랙 참조 박스의 박스 유형은 'pctr'이고, moov 박스의 trak 박스 내에 포함된다.

PCC 트랙 참조 박스는, 지오메트리 데이터, 텍스처 데이터, 및 점유 맵 데이터가 포함된 트랙들의 목록을 제공할 수 있다. 다양한 클라이언트의 기능(capability)을 지원하는 PCC 컨텐츠의 유연한 구성을 위해, 다양한 비디오 코덱들, 프로파일들 및 레벨들을 이용하여 인코딩된 데이터, 및 스트림 유형 표현들(예를 들어, 스트림에 d0 및 d1 프레임들이 모두 포함되어 있는지 또는 하나의 프레임 유형 만 포함되어 있는지)의 복수의 버전들, 및 무손실 인코딩 지원이 제공될 수 있다.

아래의 [표 2]는 PCC 트랙 참조 박스의 신택스이다.

[표 2]

[표 2]의 신택스에서, numOfDataTrackReferences 는 박스 내에 참조되는 트랙 참조(track references)들의 개수를 가리킨다.

DataType은 아래의 [표 3]에 나열된 참조된 트랙 내의 PCC 데이터의 유형을 가리킨다.

[표 3]

VideoCodecType은 [표 4] 내에 나열된 참조된 트랙 내의 PCC 데이터를 인코딩하기 위해 이용되는 비디오 코딩 표준의 유형을 나타낸다.

VideoProfileIndication은 참조된 트랙 내의 PCC 데이터를 인코딩 하기 위해 이용되는 [표 4] 내에 나열되는 비디오 코딩 표준의 profile_idc를 포함한다.

VideoLevelIndication는 참조 트랙 내의 PCC 데이터를 인코딩 하기 위해 이용되는 [표 4] 내에 나열되는 비디오 코딩 표준의 level_idc를 포함한다.

[표 4]

lossless는 참조된 트랙 내의 PCC 데이터의 무손실 인코딩을 나타낸다.

track_ID 는 참조된 트랙의 트랙 식별자를 나타낸다. 값 0은 존재하지 않아야 하고, 주어진 값은 이 박스 내에서 중복되어서는 안된다.

한편, PCC 스트림에 대한 트랙 설계와 관련된 다른 일 실시 예로서, ISOBMFF의 기존 트랙 참조 도구 및 스킴 유형들(scheme types)을 사용할 수 있다.

다만, ISOBMFF의 기존 트랙 참조 도구 및 스킴 유형들을 이용하는 경우, 클라이언트는 각 구성 요소를 파악하기 위해 각 트랙을 구문 분석해야 한다.

포인트 클라우드 메타데이터 트랙을 구성 요소 비디오 트랙들에 링크시키기 위해, ISOBMFF 표준의 트랙 참조 도구가 사용될 수 있다. PCC 메타데이터 트랙으로부터 구성 요소 트랙들까지의 컨텐츠 설명 참조(content description reference)'cdsc'가 생성될 수 있다. 이를 위해서는 TrackBox 내에 TrackReferenceBox가 추가되고, TrackReferenceBox 내에 'cdsc'유형의 TrackReferenceTypeBox가 배치되어야 한다. TrackReferenceTypeBox는 PCC 메타데이터 트랙이 참조하는 구성 요소 비디오 트랙들을 지정하는 track_ID 배열을 포함할 수 있다. 또는, 'cdsc' 대신에 PCC 비트 스트림을 위한 새로운 트랙 참조 유형이 정의되고 사용될 수 있다. 또는, 미디어 파일은 트랙 참조들의 체인(chain)을 포함할 수 있는데, 이는, PCC 메타데이터 트랙으로부터 지오메트리 비디오 트랙(들)으로의 'cdsc' 트랙 참조를 추가하고 이들 트랙들로부터 점유 맵 및 텍스처 트랙들로의 'auxl' 트랙 참조들을 추가함으로써 가능할 수 있다.

각 트랙의 유형은 트랙 스킴 유형(track scheme type)으로 알려져 있다. 지오메트리 비디오 스트림 트랙의 경우, SchemeTypeBox의 scheme_type 필드가 'pcgm'으로 설정되어 포인트 클라우드 지오메트리 제한 스킴(point cloud geometry restricted scheme)을 나타낼 수 있다. 텍스처 비디오 스트림 트랙의 경우, scheme_type 필드가 'pctx'로 설정되어 포인트 클라우드 텍스처 제한 스킴을 나타낼 수 있다.

한편, PCC 스트림에 대한 트랙 설계와 관련된 또 다른 일 실시 예로서, ISOBMFF의 MetaBox의 EntityToGroupBox 기반 트랙 설계가 이용될 수 있다.

V-PCC 비트 스트림은, 연관된 시간에 따른 독립적으로 디코딩 가능한 비디오 스트림들(지오메트리, 텍스처 및 점유 맵) 및 정적 메타데이터의 집합(collection)이다. ISOBMFF는 이미 이러한 스트림들의 집합을 신호화하고 캡슐화하기 위해 입증 된 구조(proven structure)를 제공한다. ISOBMFF의 트랙 구조는, 시간-지정 스트림들(timed streams)(비디오 및 시간-지정 메타데이터(video and timed metadata))에 적합하다. 샘플 항목, 샘플 그룹 또는 트랙 수준 메타데이터 박스는, 정적 메타데이터에 적합하다. 이 실시 예에서는 트랙 레벨 설계에 대한 제안을 제시한다.

V-PCC가 4 개의 시간-정렬 데이터 스트림들(텍스쳐, 지오메트리, 점유 맵 및 메타데이터)을 필요로 한다는 것을 고려하면, 4 개의 독립적인 트랙들이 있는 설계가 적합할 수 있다. 스트림들 간의 동기화는, ISOBMFF 트랙 타이밍 구조들(stts, ctts 및 cslg 또는 movie fragments 내의 균등한 메커니즘)에 의해 처리될 수 있다.

단일 V-PCC 파일의 트랙들은, V-PCC 특정 그룹화 4CC 값(예를 들어, 비주얼 포인트 클라우드 그룹 'vpcg')을 가진 파일-레벨 EntityToGroupBox를 사용하여 그룹화 될 수 있다. 단일 V-PCC 스트림에 공통인 모든 메타데이터는, 이 V-PCC 특정 EntityToGroupBox 내에 특정될 수 있다. EntittyToGroupBox는 V-PCC 컨텐츠에 액세스 하기 위한 진입 점 역할을 할 수 있다.

MPEG 지정 코덱을 사용하는 코딩된 비디오 트랙들의 운반은, ISOBMFF 파생 규격들 내에 잘 정의되어 있다. 예를 들어, AVC 및 HEVC 코딩 된 비디오들의 운반은, 14496-15 규격에 정의되어 있다. 다른 코덱 유형들이 필요한 경우, ISOBMFF는 확장 메커니즘도 제공한다.(14496-12 의 Annex C 참조).

재생 단에서, 포인트 클라우드를 복원하지 않고 텍스쳐, 지오메트리 또는 점유 맵 트랙들을 디스플레이 하는 것은 무의미하므로, 제한된 비디오 구성 유형(restricted video scheme type) 'pcct', 'pccg' 및 'pcco'가 각각 지정되어 PCC 트랙들에 대해 사용될 수 있다.

V-PCC 메타데이터는, 시간-지정 메타데이터 트랙 내에 포함될 수 있다. 시간-지정 메타데이터의 운반은, 비디오 트랙들의 운반과 동일하거나 유사한 방식으로 처리될 수 있다. 시간-지정 메타데이터 트랙 'vpcm'의 V-PCC 특정 샘플 엔트리 유형이 지정될 수 있다.

일반적으로 V-PCC 솔루션에 필요한 메타데이터는, 스트림 수준, GOF 수준 또는 프레임 당 사용 가능한 정보로 나눌 수 있다. 따라서 다음과 같은 ISOBMFF 구조가 제안될 수 있다. V-PCC 코딩 사양은 아래에 포함된 데이터 구조를 정의한다고 가정한다.

일 예로서, 스트림 레벨 메타데이터는, 전반적으로(globally) 이용되어야 하고, 정적 특성으로 인해 시간에 걸쳐 변하지 않아야 한다. 따라서, 스트림 레벨 메타데이터는, 파일-레벨 MetaBox 내에 포함되는 V-PCC 특정 EntityToGroupBox 'vpcg' 내에 저장될 수 있다.

아래의 [표 5]는, V-PCC 특정 EntityToGroupBox 'vpcg' 내에 저장되는 스트림 레벨 메타데이터의 신택스이다.

[표 5]

vpcc_bitstream_metadata()는 [V-PCC 코딩 규격] 내에서 특정될 수 있다.

다른 예로서, GOF(Group of Frame) 레벨 메타데이터는, 프레임들의 그룹들 간에서 변경 가능하고, 랜덤 엑세스에 대해서 빠르게 색인을 달 수 있어야(indexable) 한다. 따라서, GOF 레벨 메타데이터는 'vpcm' 트랙의 SampleGroupDescriptionBox 내에 저장될 수 있다. SampleGroupDescriptionEntry 는, 새로운 V-PCC 특정 박스인 VPCCSampleGroupEntry ‘vpcs’에 맞도록 확장될 수 있다.

아래의 [표 6]은, 'vpcm' 트랙의 SampleGroupDescriptionBox 내에 저장되는 GOF 레벨 메타데이터의 신택스이다.

[표 6]

vpcc_gof_metadata()는 [V-PCC 코딩 규격] 내에서 특정될 수 있다.

또 다른 예로서, 프레임 레벨 메타데이터는 매 프레임마다 변경 가능하고, 'vpcm' 시간-지정 메타데이터 트랙 내에 저장될 수 있다.

아래의 [표 7]은, 'vpcm' 시간-지정 메타데이터 트랙 내에 저장되는 프레임 레벨 메타데이터의 신택스이다.

[표 7]

vpcc_frame_metadata()는 [V-PCC 코딩 규격] 내에서 특정될 수 있다.

한편, 일 실시 예에 따른 PCC 메타데이터 트랙은, PCC 디코더 구성 레코드를 포함할 수 있다.

PCC 디코더 구성 레코드는, PCC 디코더 구성 레코드에 의해 기술 된 기본 스트림들을 디코딩 하는데 필요한 PCC 디코더의 프로파일 및 레벨의 표시를 제공할 수 있다. 이 프로파일 및 레벨에 의해 표시된 프로파일 및 레벨을 준수하는 PCC 디코더는, 각 기본 스트림이 준수하는 비디오 프로파일 및 레벨에 관계없이 파일의 모든 기본 스트림을 디코딩 할 수 있어야 한다.

PCC 디코더 구성 레코드는 버전 표시를 제공할 수 있다. 본 개시에서 PCC 디코더 구성 레코드의 버전 1을 사용한다. 버전 1을 준수하는 디코더에 의해 디코딩 할 수없는 변경 사항은, 이 필드의 새로운 값을 사용해야 한다.

아래의 [표 8]은 PCC 디코더 구성 레코드의 신택스이다.

[표 8]

configurationVersion은 이 레코드의 버전을 나타낸다.

PCCProfileIndication은 PCC 표준의 profile_idc 를 포함한다.

PCCLevelIndication은 PCC 표준의 level_idc를 포함한다.

한편, 일 실시 예에 따른 PCC 메타데이터 트랙은, PCC 파라미터 세트를 포함할 수 있다.

PCC 파라미터 세트는 PCC 디코더에 대한 초기화 정보를 제공할 수 있다.

아래의 [표 9]는 PCC 파라미터 세트의 신택스이다.

[표 9]

[표 9]의 신택스의 엘레먼트들에 대한 정의는, PCC 규격에 정의된 내용과 동일하므로 본 개시에서는 생략한다.

한편, 비디오 코딩 표준으로 압축된 PCC 데이터는, 샘플 엔트리가 표의 동일한 행에 나열된 4CC 중 하나 인 트랙에 저장되어야 한다.

이하에서는, PCC 메타데이터 트랙의 시간-지정 메타데이터 트랙에 대해서 설명한다.

아래의 [표 10]은 PCC 메타데이터 트랙의 시간-지정 메타데이터 트랙의 정의를 나타낸다.

[표 10]

PCC 메타데이터 트랙의 시간-지정 메타데이터 트랙은, PCC 메타데이터 트랙의 stsd 박스(샘플 설명 박스, sample description box)에 포함될 수 있다. stsd 박스는 stbl 박스(샘플 테이블 박스, sample table box)에 포함되고, stbl 박스는 minf 박스(미디어 정보 박스, media information box)에 포함되고, minf 박스는 PCC 메타데이터 트랙의 mdia 박스(미디어 박스, media box)에 포함될 수 있다.

시간-지정 메타데이터 트랙의 샘플 엔트리 유형으로서 트랙 샘플 엔트리 유형 “pcc1”이 이용될 수 있다. 이 샘플 엔트리 타입의 샘플 엔트리는 다음의 [표 11]에 의해 특정될 수 있다.

[표 11]

PCC 메타데이터 트랙은, 샘플 엔트리 내에 (시간에 따라 변화지 않는) 정적 구성 파라미터들을 포함하고, 샘플 포맷 내에 프레임에 따라 달라지는 동적 보조 정보 또는 동적 패치 정보를 포함할 수 있다.

PCC 메타데이터 트랙의 각 샘플은, 하나의 포인트 클라우드 인스턴스 (포인트 클라우드 "프레임")를 생성할 수 있다. 하나의 포인트 클라우드 인스턴스의 다양한 구성 요소들(보조 정보, 점유 맵, 지오메트리 및 텍스쳐)의 디코딩 시간은, PCC 메타데이터 샘플 디코딩 시간(디코딩 타임을 이용하여 샘플 박스 ‘stts’로 정의됨)과 동일하다. 그러므로 PCC 메타데이터 샘플이 참조하는 다른 트랙들의 모든 샘플들은 동일한 디코딩 타임스탬프를 가져야 한다.

한편, 각 샘플은, 별도의 2D 비디오 코덱에 의해 압축된 점유 맵 데이터 스트림이 존재하는지 여부에 따라, 보조 정보 및 점유 맵 데이터를 모두 포함하거나 보조 정보만 포함할 수 있다.

샘플 엔트리 유형('pcc1')의 샘플 신택스는 다음의 [표 12]에 의해 특정될 수 있다.

[표 12]

[표 12]의 신택스에서 CodecType은 대응되는 박스 내에 운반되는 PCC 메타데이터(보조 정보, 점유 맵)를 인코딩하기 위해 이용되는 코딩 표준 타입을 나타낸다.

PatchAuxInfoStruct()는 V-PCC 표준 내에서 패치 당 한번씩 특정되는 신택스 엘레먼트들을 포함한다.

BlockAuxInfoStruct()는 V-PCC 표준 내에서 블록 당 한번씩 특정되는 신택스 엘레먼트들을 포함한다.

BlockOccupancyMapStruct()는 V-PCC 표준 내에서 비어 있지 않은 블록들에 대해서 특정되는 신택스 엘레먼트들을 포함한다.

다른 신택스의 엘레먼트들에 대한 정의는, PCC 규격에 정의된 내용과 동일하므로 본 개시에서는 생략한다.

[표 12]에는 PCC 메타데이터 트랙 내에 보조 정보를 포함하고, 선택적으로 점유 맵을 포함하는 것으로 예시되었지만, 본 개시의 실시 예는 [표 12]에 제한되지 않는다. 본 개시의 다른 일 실시 예에 따른 전송 장치(100)가 별도의 보조 정보 메타데이터 트랙 및 별도의 점유 맵 메타데이터 트랙을 가지고 각 시간-지정 메타데이터 구성 요소에 대해 새 메타데이터 샘플 엔트리를 생성하면, “PCC 메타데이터 트랙”에는 구성 정보 및 파라미터 세트 정보만 포함될 수 있다.

이하에서는, 점유지도 및 보조 정보 트랙(Occupancy Map and Auxiliary Information Track)에 관하여 설명한다.

디코더는, 지오메트리 스트림에 기초하여, 각 GOF 유닛 내의 다른 스트림의 일부인 점유 맵 및 보조 정보를 사용하여 포인트 클라우드를 재구성할 수 있다. 따라서,이 스트림은 별도의 시간-지정 메타데이터 트랙에 배치될 수 있으며, 이를 점유 맵 트랙이라고 할 수 있다. 이 트랙은, 트랙의 샘플 기술자 내에서 다음 샘플 엔트리에 의해 식별될 수 있다. 그리고, 이 트랙에 대한 샘플들은 단일 프레임에 대한 보조 정보뿐만 아니라 점유 맵도 포함할 수 있다.

[표 13]은 미리 정의된 메타 데이터 샘플 엔트리에 대한 샘플 엔트리의 신택스를 나타낸다.

[표 13]

다른 실시 예로서, 점유 맵 정보 및 보조 정보를 운반하기 위해 2 개의 별개의 시간-지정 메타데이터 트랙이 사용될 수 있다. 점유 맵 트랙은, 단일한 점유 맵 및 보조 정보 결합 트랙(single combined occupancy map and auxiliary information track)의 경우에 대해서 위에서 설명한 것과 동일한 샘플 엔트리를 포함해야 한다. 보조 정보에 대한 시간-지정 메타데이터 트랙은, 해당 메타데이터 트랙의 샘플 기술자 내에 [표 14]에 예시된 샘플 엔트리를 포함해야 한다.

[표 14]

점유 맵이 비디오 코더를 사용하여 코딩되는 경우, 생성된 비디오 스트림은 제한된 비디오 스킴 트랙에 배치될 수 있다. 이 트랙의 SchemeTypeBox의 scheme_type 필드는, 포인트 클라우드 점유 맵 제한된 비디오 스킴을 나타내는 'pomv'로 설정될 수 있다. 이 비디오 트랙은, PCC 트랙 참조 박스에 의해서(또는 위에서 설명한 트랙 참조와 관련된 다른 실시 예들 내에서) 참조될 수 있다.

이하에서는, 복수의 버전들의 포인트 클라우드 스트림들의 그룹화(Grouping for Multiple Versions of Point Cloud Streams)에 대해서 설명한다.

ISOBMFF 컨테이너는, 복수의 포인트 클라우드 스트림들을 포함 할 수 있다.

이러한 다중 포인트 클라우드 스트림들은, (동일한 객체를 나타내는) 동일한 포인트 클라우드 스트림의 다른 버전들이거나, 또는 (상이한 객체를 나타내는) 복수의 다른 포인트 클라우드 스트림들일 수있다.

(압축된 비디오 및 메타데이터 스트림을 포함하는) PCC 스트림의 모든 트랙들(구성 요소들) 내에서 TrackGroupBox를 TrackBox에 추가함으로써, 트랙들의 세트에 의해 표현되는 포인트 클라우드 스트림의 미리 정의 된 버전들은, ISOBMFF 내의 트랙 그룹화 도구를 사용하여 식별될 수 있다.

아래의 [표 15]의 신택스?z 새로운 트랙 그룹화 유형 PCCStreamGroupBox를 정의한다.

[표 15]

동일한 PCC 스트림에 속하는 트랙들은 track_group_type 'pccs'에 대해 동일한 track_group_id 값을 가지며, 하나의 PCC 스트림의 track_group_id는 다른 PCC 스트림의 track_group_id와 다르다. 따라서 track_group_type이 'pccs'인 TrackGroupTypeBox 내의 track_group_id가 PCC 스트림의 식별자로 사용될 수 있다.

서로 다른 포인트 클라우드들(객체들)를 나타내는 여러 포인트 클라우드 스트림들이 단일 컨테이너 내에 허용되는 경우, (다른 객체들의) 각 포인트 클라우드 스트림에 대해서 적어도 하나의 고유한 PCC 메타데이터 트랙이 존재할 수 있다.

상술한 바와 같이, 본 개시의 다양한 실시 예들에 따르면, 복수의 트랙들 내에 복수의 V-PCC 구성 요소들을 운반함으로써, ISOBMFF 파일 내에 V-PCC 컨텐츠를 운반하는 방법이 제안된다. 각 트랙은 PCC 스트림의 개별 기본 스트림일 수 있고, 개별 기본 스트림은 해당 스트림에 대응하는 디코더에 의해 디코딩될 수 있다.

본 개시의 일 실시 예에 따른 PCC 메타데이터 트랙은 다른 트랙들의 목록을 포함할 수 있고, 컨텐츠와 관련된 모든 트랙들의 목록은 해당 컨텐츠의 진입 점을 나타낼 수 있다. 따라서, 본 개시의 다양한 실시 예들에 따르면, 미디어 파일 내에 PCC 메타데이터 트랙을 통해 V-PCC 컨텐츠의 유연한 구성을 가능하게 하는 진입 점이 정의될 수 있다.

또한, 본 개시의 다양한 실시 예들에 따르면, V-PCC 데이터와 관련된 데이터를 포함하는 새로운 V-PCC 메타데이터 샘플 형식이 정의됨으로써, ISOBMFF 파일 내의 mdat내에 중복되는 헤드들이 제거될 수 있다.

또한, 본 개시의 다양한 실시 예들에 따르면, 전달 시점 또는 디코딩 시점에서, 인코딩된 PCC 데이터를 유연하게 조합할 수 있다. 또한, 다양한 비디오 코덱들, 프로파일들 및 레벨들을 이용하여 인코딩되고 디코딩 될 수 있는 컨텐츠가 제공될 수 있으며, 포인트 클라우드 스트림들의 복수의 버전들에 대한 그룹화를 가능하게 할 수 있다.

이하에서는, 도 6에 도시된 흐름도를 참조하여 본 개시의 다양한 실시 예들에 따른 전송 장치(100)가 3차원 비디오 컨텐츠를 전송하는 방법을 설명한다. 이하에서 서술하는 방법은, 도 4에 도시된 전송 장치(100)의 각 구성에 의해 수행될 수 있다.

단계 S610에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 포인트 클라우드 데이터를 포함하는 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 2차원 비디오 프레임을 3차원 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성할 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(100)는, 3차원 비디오 컨텐츠에 포함되는 포인트 클라우드 프레임을 2D 평면 상에 프로젝션 함으로써 적어도 하나의 2D 이미지를 생성할 수 있다. 예를 들어, 전송 장치(100)는, 적어도 하나의 지오메트리 영상, 적어도 하나의 텍스쳐 영상, 및 점유 맵 영상을 생성할 수 있다. 전송 장치(100)는, 생성된 2D 이미지들로부터 2D 비디오 프레임을 생성할 수 있다.

본 개시의 일 실시 예에 따른 전송 장치(100)는, 2차원 비디오 프레임으로부터 3차원 컨텐츠를 복원하기 위해 필요한 메타데이터를 생성할 수 있다. 전송 장치(100)는, 메타데이터로서 패치와 관련된 정보를 포함하는 보조 정보를 생성할 수 있다.

단계 S620에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 2차원 비디오 프레임을 인코딩할 수 있다. 전송 장치(100)는, 비디오 코덱을 이용하여 2차원 비디오 프레임을 인코딩 할 수 있다. 또한, 전송 장치(100)는, 선택적으로 메타데이터를 인코딩할 수 있다.

단계 S630에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 인코딩된 2차원 비디오 프레임 및 메타데이터를 미디어 파일로 캡슐화 할 수 있다. 예를 들어, 전송 장치(100)는, 인코딩된 2차원 비디오 프레임 및 메타데이터를 ISOBMFF 미디어 파일로 캡슐화 할 수 있다.

일 실시 예에 따른 전송 장치(100)는, 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 미디어 파일 내의 미디어 데이터 박스 내에 삽입할 수 있다. 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들은, 지오메트리 데이터, 텍스쳐 데이터, 및 점유 맵 데이터 중 적어도 하나를 포함할 수 있다. 예를 들어, 전송 장치(100)는, 지오메트리 데이터, 텍스쳐 데이터, 및 점유 맵 데이터를 ISOBMFF 파일의 mdat 박스 내의 샘플들 내에 삽입할 수 있다.

그리고 일 실시 예에 따른 전송 장치(100)는, 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터에 대응하는 제2 트랙을 미디어 파일 내의 메타데이터 박스 내에 삽입할 수 있다. 예를 들어, 전송 장치(100)는, ISOBMFF 파일의 moov 박스 내에 지오메트리 데이터에 대응하는 비디오 트랙, 텍스쳐 데이터에 대응하는 비디오 트랙, 및 점유 맵 데이터에 대응하는 비디오 트랙을 삽입할 수 있다. 전송 장치(100)는, ISOBMFF 파일의 moovt 박스 내에 메타데이터에 대응하는 제2 트랙을 삽입할 수 있다. 제2 트랙은 상술한 PCC 메타데이터 트랙일 수 있다. 중복되는 설명은 생략한다.

본 개시의 일 실시 예에 따른 제2 트랙은, 수신 장치(200)가 미디어 파일을 파싱할 때, PCC 컨텐츠의 복수의 구성 요소들 각각에 대한 진입 점을 제공할 수 있다. 본 개시의 일 실시 예에 따른 제2 트랙은, 다른 제1 트랙들에 대한 목록을 제공할 수 있다. 따라서, 수신 장치(200)는, 제1 트랙들을 구문 분석하지 않더라도, 제2 트랙이 제공하는 정보에 기초하여 제1 트랙들에 대한 정보를 빠르게 획득할 수 있다.

미디어 파일을 생성하는 구체적인 방법에 대해서는 후에 도 7을 참조하여 보다 구체적으로 설명한다.

단계 S640에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 캡슐화된 데이터를 패킷화 하여 수신 장치(200)에게 전송할 수 있다. 예를 들어, 전송 장치(100)는, MMT 방식에 적합한 형태의 비트 스트림을 생성하여 패킷화된 미디어 데이터를 전송할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 전송 장치(100)가 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법의 흐름도를 도시한다.

단계 S710에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 미디어 파일 내의 미디어 데이터 박스 내에 삽입할 수 있다.

일 실시 예에 따른 미디어 파일은, ISOBMFF에 따른 파일이고, 미디어 데이터 박스는 mdat 박스일 수 있다.

일 실시 예에 따른 3차원 비디오 컨텐츠는, 포인트 클라우드를 포함하고, V-PCC 기술에 의해 2차원 비디오 프레임들로 압축될 수 있다. 2차원 비디오 프레임은, 포인트 클라우드에 포함되는 포인트들의 위치 정보를 나타내는 지오메트리 영상, 포인트들의 색상 정보를 나타내는 텍스쳐 영상, 및 2차원 비디오 프레임에 포함되는 2D 영상의 픽셀들 중에서 포인트 클라우드에 관한 정보를 가지고 있는 픽셀들에 대한 정보를 나타내는 점유 맵 영상 중 적어도 하나를 포함할 수 있다.

일 실시 예에 따른 메타데이터는, 포인트 클라우드로부터 획득된 패치들에 대한 정보를 포함하는 보조 정보를 포함할 수 있다.

단계 S720에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 미디어 파일 내의 메타데이터 박스 내에 삽입할 수 있다.

압축된 3차원 비디오 컨텐츠의 복수의 구성 요소들은 메타데이터 박스의 트랙들 각각에 매핑될 수 있다. 일 실시 예에 따른 미디어 파일의 메타데이터 박스는, ISOBMFF 파일의 moov 박스일 수 있다.

일 실시 예에 따른 제1 트랙들은, 인코딩된 지오메트리 영상에 대한 정보를 포함하는 지오메트리 트랙, 인코딩된 텍스쳐 영상에 대한 정보를 포함하는 텍스쳐 트랙, 및 인코딩된 점유 맵 영상에 대한 정보를 포함하는 점유 맵 트랙 중 적어도 하나를 포함할 수 있다.

단계 S730에서 본 개시의 일 실시 예에 따른 전송 장치(100)는, 복수의 구성 요소들 각각에 대한 진입 점에 대한 정보를 제2 트랙 내에 삽입할 수 있다.

일 실시 예에 따른 제2 트랙은, 제1 트랙들에 포함되는 트랙들의 목록을 더 포함함으로써, 복수의 구성 요소들 각각에 대한 진입 점이 될 수 있다.

일 실시 예에 따른 제2 트랙은, 제2 트랙 내에서 참조되는 제1 트랙들의 개수, 제1 트랙의 데이터 종류, 제1 트랙의 데이터를 인코딩 하기 위해 이용된 비디오 코딩 표준의 종류, 프로파일 및 레벨, 제1 트랙의 데이터의 무손실 인코딩 여부, 및 제1 트랙의 트랙 식별자 중 적어도 하나를 포함할 수 있다.

예를 들어, 제2 트랙이 ISOBMFF 파일의 PCC 메타데이터 트랙인 경우, 제2 트랙은 [표 2]의 PCC 트랙 참조 박스를 포함할 수 있다.

또한, 일 실시 예에 따른 제2 트랙은, PCC 디코더 구성 레코드, 및 PCC 파라미터 세트 중 적어도 하나를 더 포함할 수 있다. 예를 들어, 제2 트랙이 ISOBMFF 파일의 PCC 메타데이터 트랙인 경우, 제2 트랙의 샘플 기술자 박스의 샘플 엔트리 내에 PCC 디코더 구성 레코드, 및 PCC 파라미터 세트 중 적어도 하나가 포함될 수 있다.

한편, 메타데이터 박스 내에 포함되는 트랙들 각각은, 각 트랙이 포함되는 그룹을 식별하기 위한 식별 정보를 포함할 수 있다. 예를 들어, 미디어 파일이 ISOBMFF 파일인 경우, 전송 장치(100)는, PCC 스트림의 모든 트랙들의 TrackBox에 TrackGroupBox를 추가하고, 동일한 PCC 스트림에 속하는 트랙들에 대해서 동일한 트랙 그룹 식별자를 부여할 수 있다.

이하에서는, 도 8에 도시된 흐름도를 참조하여 본 개시의 다양한 실시 예들에 따른 수신 장치(200)가 3차원 비디오 컨텐츠를 수신하고 복원하는 방법을 설명한다. 이하에서 서술하는 방법은, 도 4에 도시된 수신 장치(200)의 각 구성에 의해 수행될 수 있다.

단계 S810에서 본 개시의 일 실시 예에 따른 수신 장치(200)는, 전송 장치(100)로부터 수신된 비트스트림에 포함되는 패킷을 처리하여 미디어 파일을 복원할 수 있다.

단계 S820에서 본 개시의 일 실시 예에 따른 수신 장치(200)는, 미디어 파일을 파싱함으로써, 미디어 파일로부터 인코딩된 2차원 비디오 프레임 및 메타데이터를 추출할 수 있다.

일 실시 예에 따른 2차원 비디오 프레임은, 포인트 클라우드를 포함하는 3차원 비디오 컨텐츠가 V-PCC 기술에 의해 압축된 데이터일 수 있다. 2차원 비디오 프레임은, 지오메트리 영상, 텍스쳐 영상, 및 점유 맵 영상 중 적어도 하나를 포함하고, 메타데이터는, 포인트 클라우드로부터 획득된 패치들에 대한 정보를 포함하는 보조 정보를 포함할 수 있다.

일 실시 예에 따른 수신 장치(200)는, 미디어 파일을 파싱하기 위하여, 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별할 수 있다. 예를 들어, 미디어 파일은, ISOBMFF 파일이고, 미디어 데이터 박스는 mdat 박스이고, 메타데이터 박스는 moov 박스일 수 있다.

일 실시 예에 따른 수신 장치(200)는, 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들 각각에 대응하는 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 메타데이터 박스로부터 식별할 수 있다.

예를 들어, 제1 트랙들은, 지오메트리 트랙, 텍스쳐 트랙, 및 점유 맵 트랙 중 적어도 하나를 포함할 수 있다. 메타데이터를 포함하는 제2 트랙은, 제1 트랙들에 포함되는 트랙들의 목록을 더 포함할 수 있다.

일 실시 예에 따른 수신 장치(200)는, 제2 트랙으로부터 미디어 데이터 박스 내의 복수의 구성 요소들 각각에 대한 진입 점을 식별할 수 있다.

일 실시 예에 따른 제2 트랙은, 제2 트랙 내에서 참조되는 제1 트랙들의 개수, 제1 트랙의 데이터 종류, 제1 트랙의 데이터를 인코딩 하기 위해 이용된 비디오 코딩 표준의 종류, 프로파일 및 레벨, 제1 트랙의 데이터의 무손실 인코딩 여부, 및 제1 트랙의 트랙 식별자 중 적어도 하나를 포함할 수 있다. 예를 들어, 제2 트랙이 ISOBMFF 파일의 PCC 메타데이터 트랙인 경우, 제2 트랙은 [표 2]의 PCC 트랙 참조 박스를 포함할 수 있다.

일 실시 예에 따른 수신 장치(200)는, 식별된 진입 점에 기초하여, 미디어 파일로부터 인코딩된 2차원 비디오 프레임 및 메타데이터를 추출할 수 있다.

단계 S830에서 본 개시의 일 실시 예에 따른 수신 장치(200)는, 인코딩된 2차원 비디오 프레임을 디코딩 할 수 있다.

수신 장치(200)는, 전송 장치(100)에서 수행되었던 비디오 코덱을 이용하여 인코딩된 2차원 비디오 프레임을 디코딩 할 수 있다.

본 개시의 일 실시 예에 따른 제2 트랙은, PCC 디코더 구성 레코드, 및 PCC 파라미터 세트 중 적어도 하나를 더 포함할 수 있다. 예를 들어, 제2 트랙이 ISOBMFF 파일의 PCC 메타데이터 트랙인 경우, 제2 트랙의 샘플 기술자 박스의 샘플 엔트리 내에 PCC 디코더 구성 레코드, 및 PCC 파라미터 세트 중 적어도 하나가 포함될 수 있다.

PCC 데이터를 구성하는 각 구성 요소는 독립적인 비디오 코덱으로 인코딩 되어 전송될 수 있다. 따라서, 본 개시의 일 실시 예에 따른 수신 장치(200)는, PCC 메타데이터 트랙의 PCC 트랙 참조 박스에 기초하여, 적합한 비디오 코덱, 프로파일 및 레벨 등에 기초하여 2차원 비디오 프레임을 디코딩 할 수 있다.

단계 S840에서 본 개시의 일 실시 예에 따른 수신 장치(200)는, 2차원 비디오 프레임 및 메타데이터에 기초하여 3차원 비디오 컨텐츠를 복원하고 출력할 수 있다.

본 개시의 일 실시 예에 따른 미디어 파일은 복수의 포인트 클라우드 스트림들을 포함 할 수 있다. 본 개시의 일 실시 예에 따른 수신 장치(200)는, 미디어 파일의 메타데이터 박스 내의 트랙들로부터 각 트랙의 데이터가 포함되는 그룹의 식별자를 식별함으로써, 같은 그룹에 포함되는 트랙들의 데이터로부터 포인트 클라우드를 복원할 수 있다.

한편, 상술한 실시 예는, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터에 의해 판독 가능한 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시 예에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 또한, 상술한 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 컴퓨터가 읽고 실행할 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 기록 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 마그네틱 저장매체, 예를 들면, 롬, 플로피 디스크, 하드 디스크 등을 포함하고,) 광학적 판독 매체, 예를 들면, 시디롬, DVD 등과 같은 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.

또한, 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램 명령어 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.

본 개시에서 설명된 특정 실행들은 일 실시 예 일 뿐이며, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 및 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.

Claims

3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법에 있어서,
압축된 상기 3차원 비디오 컨텐츠에 대응되는 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스에 포함된 복수의 샘플들 내에 삽입하는 단계;
상기 복수의 구성 요소들의 유형에 각각 대응하는 복수의 제1 트랙들 및 메타데이터를 포함하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입하는 단계; 및
미디어 파일의 파싱에 이용하기 위해, 상기 복수의 샘플들 내에 삽입된 상기 복수의 구성 요소들 각각에 대한 진입 점(entry point)에 대한 정보를 상기 제2 트랙 내에 삽입하는 단계를 포함하되, 상기 제2 트랙은 상기 복수의 제1 트랙의 리스트 및 상기 복수의 구성 요소들 각각이 인코딩된 복수의 버전의 리스트를 더 포함하는, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 미디어 파일은, ISO 기반 미디어 파일 형식(ISO base media file format, ISOBMFF)에 따른 파일이고, 상기 미디어 데이터 박스는 mdat 박스이고, 상기 메타데이터 박스는 moov 박스인, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 3차원 비디오 컨텐츠는, 포인트 클라우드를 포함하고, V-PCC(Video based Point Cloud Compression) 기술에 의해 상기 2차원 비디오 프레임으로 압축되고,
상기 2차원 비디오 프레임은, 상기 포인트 클라우드에 포함되는 포인트들의 위치 정보를 나타내는 지오메트리 영상, 상기 포인트들의 색상 정보를 나타내는 텍스쳐 영상, 및 상기 2차원 비디오 프레임에 포함되는 2D 영상의 픽셀들 중에서 상기 포인트 클라우드에 관한 정보를 가지고 있는 픽셀들에 대한 정보를 나타내는 점유 맵 영상을 포함하고,
상기 메타데이터는, 상기 포인트 클라우드로부터 획득된 패치들에 대한 정보를 포함하는 보조 정보를 포함하는, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 복수의 제1 트랙들은, 인코딩된 지오메트리 영상에 대한 정보를 포함하는 지오메트리 트랙, 인코딩된 텍스쳐 영상에 대한 정보를 포함하는 텍스쳐 트랙, 및 점유 맵 영상에 대한 정보를 포함하는 점유 맵 트랙 중 적어도 하나를 포함하는, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 제2 트랙은, 상기 제2 트랙 내에 참조되는 상기 복수의 제1 트랙들의 개수, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터 종류, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터를 인코딩하기 위해 이용된 비디오 코딩 표준의 종류, 프로파일 및 레벨, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터의 무손실 인코딩 여부를 나타내는 정보, 및 상기 복수의 제1 트랙들 중 적어도 하나의 트랙 식별자 중 적어도 하나를 더 포함하는, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 제2 트랙은, PCC 디코더 구성 레코드, 및 PCC 파라미터 세트를 더 포함하는, 미디어 파일 생성 방법.
제1 항에 있어서,
상기 복수의 제1 트랙들 및 상기 제2 트랙들 각각은, 각 트랙이 포함되는 그룹을 식별하기 위한 식별 정보를 포함하는, 미디어 파일 생성 방법.
3차원 비디오 컨텐츠를 전송하는 방법에 있어서,
포인트 클라우드 데이터를 포함하는 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 상기 2차원 비디오 프레임을 상기 3차원 비디오 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성하는 단계;
상기 2차원 비디오 프레임을 인코딩하는 단계;
상기 인코딩된 2차원 비디오 프레임 및 상기 메타데이터를 미디어 파일로 캡슐화 하는 단계; 및
상기 캡슐화된 데이터를 패킷화 하여 전송하는 단계를 포함하고,
상기 캡슐화 하는 단계는,
상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스에 포함된 복수의 샘플들 내에 삽입하는 단계; 및
상기 복수의 구성 요소들의 유형에 각각 대응하는 복수의 제1 트랙들 및 상기 메타데이터에 대응하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입하는 단계를 포함하고,
상기 제2 트랙은 상기 복수의 제1 트랙의 리스트 및 상기 복수의 구성 요소들 각각이 인코딩된 복수의 버전의 리스트를, 상기 미디어 파일을 파싱할 때, 상기 복수의 샘플들 내에 삽입된 상기 복수의 구성 요소들 각각에 대한 진입 점을 제공하는, 3차원 비디오 컨텐츠 전송 방법.
3차원 비디오 컨텐츠를 전송하는 장치에 있어서,
포인트 클라우드 데이터를 포함하는 상기 3차원 비디오 컨텐츠가 압축된 2차원 비디오 프레임 및 상기 2차원 비디오 프레임을 상기 3차원 비디오 컨텐츠로 복원하기 위해 필요한 메타데이터를 생성하고,
상기 2차원 비디오 프레임을 인코딩하고,
상기 인코딩된 2차원 비디오 프레임 및 상기 메타데이터를 미디어 파일로 캡슐화 하고,
상기 캡슐화된 데이터를 패킷화 하는, 적어도 하나의 프로세서; 및
상기 패킷화된 데이터를 전송하는, 통신부를 포함하고,
상기 적어도 하나의 프로세서는,
상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들을 상기 미디어 파일 내의 미디어 데이터 박스에 포함된 복수의 샘플들 내에 삽입하고, 상기 복수의 구성 요소들의 유형에 각각 대응하는 복수의 제1 트랙들 및 상기 메타데이터에 대응하는 제2 트랙을 상기 미디어 파일 내의 메타데이터 박스 내에 삽입함으로써, 상기 미디어 파일을 생성하고,
상기 제2 트랙은 상기 복수의 제1 트랙의 리스트 및 상기 복수의 구성 요소들 각각이 인코딩된 복수의 버전의 리스트를 포함하고, 상기 미디어 파일을 파싱할 때, 상기 복수의 샘플들 내에 삽입된 상기 복수의 구성 요소들 각각에 대한 진입 점을 제공하는, 3차원 비디오 컨텐츠 전송 장치.
3차원 비디오 컨텐츠를 수신하는 방법에 있어서,
수신된 패킷을 처리하여 미디어 파일을 복원하는 단계;
인코딩된 2차원 비디오 프레임 및 메타데이터를 추출하기 위하여 상기 미디어 파일을 파싱하는 단계;
상기 인코딩된 2차원 비디오 프레임을 디코딩하는 단계; 및
상기 2차원 비디오 프레임 및 상기 메타데이터에 기초하여 상기 3차원 비디오 컨텐츠를 복원하고 출력하는 단계를 포함하고,
상기 미디어 파일을 파싱하는 단계는,
상기 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별하는 단계;
상기 메타데이터 박스로부터 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들의 유형에 각각 대응하는 복수의 제1 트랙들 및 상기 메타데이터를 포함하는 제2 트랙을 식별하는 단계; 및
상기 제2 트랙으로부터 상기 복수의 제1 트랙의 리스트, 상기 복수의 구성 요소들 각각이 인코딩된 복수의 버전의 리스트, 및 상기 미디어 데이터 박스에 포함된 복수의 샘플들 내의 상기 복수의 구성 요소들 각각에 대한 진입 점을 식별하는 단계를 포함하는, 3차원 비디오 컨텐츠를 수신하는 방법.
제10 항에 있어서,
상기 미디어 파일은, ISOBMFF에 따른 파일이고, 상기 미디어 데이터 박스는 mdat 박스이고, 상기 메타데이터 박스는 moov 박스인, 3차원 비디오 컨텐츠를 수신하는 방법.
제10 항에 있어서,
상기 3차원 비디오 컨텐츠는, 포인트 클라우드를 포함하고, 상기 인코딩된 2차원 비디오 프레임은, V-PCC 기술에 의해 상기 3차원 비디오 컨텐츠가 압축된 데이터이고,
상기 2차원 비디오 프레임은, 상기 포인트 클라우드에 포함되는 포인트들의 위치 정보를 나타내는 지오메트리 영상, 상기 포인트들의 색상 정보를 나타내는 텍스쳐 영상, 및 상기 2차원 비디오 프레임에 포함되는 2D 영상의 픽셀들 중에서 상기 포인트 클라우드에 관한 정보를 가지고 있는 픽셀들에 대한 정보를 나타내는 점유 맵 영상을 포함하고,
상기 메타데이터는, 상기 포인트 클라우드로부터 획득된 패치들에 대한 정보를 포함하는 보조 정보를 포함하는, 3차원 비디오 컨텐츠를 수신하는 방법.
제10 항에 있어서,
상기 복수의 제1 트랙들은, 인코딩된 지오메트리 영상에 대한 정보를 포함하는 지오메트리 트랙, 인코딩된 텍스쳐 영상에 대한 정보를 포함하는 텍스쳐 트랙, 및 점유 맵 영상에 대한 정보를 포함하는 점유 맵 트랙 중 적어도 하나를 포함하는 방법.
제10 항에 있어서,
상기 제2 트랙은, 상기 제2 트랙 내에 참조되는 상기 복수의 제1 트랙들의 개수, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터 종류, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터를 인코딩하기 위해 이용된 비디오 코딩 표준의 종류, 프로파일 및 레벨, 상기 복수의 제1 트랙들 중 적어도 하나의 데이터의 무손실 인코딩 여부를 나타내는 정보, 및 상기 복수의 제1 트랙들 중 적어도 하나의 트랙 식별자 중 적어도 하나를 더 포함하는, 3차원 비디오 컨텐츠를 수신하는 방법.
제10 항에 있어서,
상기 제2 트랙은, PCC 디코더 구성 레코드, 및 PCC 파라미터 세트를 더 포함하는, 3차원 비디오 컨텐츠를 수신하는 방법.
제10 항에 있어서,
상기 복수의 제1 트랙들 및 상기 제2 트랙들 각각은, 각 트랙이 포함되는 그룹을 식별하기 위한 그룹 식별 정보를 포함하고,
상기 3차원 비디오 컨텐츠는, 동일한 그룹 식별 정보를 갖는 트랙들의 세트에 기초하여 복원되는, 3차원 비디오 컨텐츠를 수신하는 방법.
3차원 비디오 컨텐츠를 수신하는 장치에 있어서,
패킷화된 데이터를 수신하는, 통신부; 및
상기 패킷화된 데이터를 처리하여 미디어 파일을 복원하고,
인코딩된 2차원 비디오 프레임 및 메타데이터를 추출하기 위하여 상기 미디어 파일을 파싱하고,
상기 인코딩된 2차원 비디오 프레임을 디코딩하고,
상기 2차원 비디오 프레임 및 상기 메타데이터에 기초하여 상기 3차원 비디오 컨텐츠를 복원하고 출력하는, 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는, 상기 미디어 파일에 포함되는 미디어 데이터 박스 및 메타데이터 박스를 식별하고, 상기 메타데이터 박스로부터 상기 인코딩된 2차원 비디오 프레임에 포함되는 복수의 구성 요소들의 유형에 각각 대응하는 복수의 제1 트랙들 및 상기 메타데이터를 포함하는 제2 트랙을 식별하고, 상기 제2 트랙으로부터 상기 복수의 제1 트랙의 리스트, 상기 복수의 구성 요소들 각각이 인코딩된 복수의 버전의 리스트, 및 상기 미디어 데이터 박스에 포함된 복수의 샘플들 내의 상기 복수의 구성 요소들 각각에 대한 진입 점을 식별하는, 3차원 비디오 컨텐츠를 수신하는 장치.