KR20220128388A

KR20220128388A - V-pcc용 스케일링 파라미터

Info

Publication number: KR20220128388A
Application number: KR1020227027764A
Authority: KR
Inventors: 블라디슬라브 자카르첸코; 지안리 첸; 제프리 모구일란스키
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2020-01-14
Filing date: 2020-12-23
Publication date: 2022-09-20
Also published as: US20220353532A1; WO2021146041A1; EP4081828A4; KR102659806B1; CN115004230A; EP4081828A1

Abstract

비디오 코딩 메커니즘이 개시된다. 메커니즘은 삼차원(3D) 경계 박스 스케일 및 아틀라스 프레임에서 복수의 이차원(2D) 패치를 포함하는 비트스트림을 수신하는 것을 포함한다. 2D 패치가 디코딩된다. 2D 패치를 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드가 재구성된다. 3D 경계 박스 스케일은 3D 경계 박스에 적용된다.

Description

V-PCC용 스케일링 파라미터

관련 출원에 대한 교차 참조

본 특허 출원은 Vladyslav Zakharchenko 등에 의해 2020년 2월 3일자로 출원된 발명의 명칭이 "Signaling Physical Dimensions of the Point Cloud Sample"인 미국 특허 가출원 번호 제62/969,411호, 및 Vladyslav Zakharchenko 등에 의해 2020년 1월 14일자로 출원된 발명의 명칭이 "Signaling Physical Dimensions of the Point Cloud Sample"인 미국 특허 가출원 번호 제62/961,028호의 이점을 주장하는데, 이들 가출원은 그들 전체가 참조에 의해 본원에 통합된다.

기술 분야

본 개시는 일반적으로 비디오 코딩에 관한 것이며, 구체적으로는, 비디오 포인트 클라우드 코딩(Video Point Cloud Coding; V-PCC)에서 관련된 물리적 치수에 기초하여 코딩된 포인트 클라우드의 스케일링을 지원하기 위한 개선책에 관한 것이다.

상대적으로 짧은 비디오라도 이를 묘사하는 데 필요한 비디오 데이터의 양은 상당할 수 있는데, 이것은 데이터가 스트리밍되어야 하거나 또는 다르게는 제한된 대역폭 용량을 가지고 통신 네트워크를 통해 통신될 때 어려움을 초래할 수 있다. 따라서, 비디오 데이터는 현대의 원격 통신 네트워크를 통해 통신되기 이전에 일반적으로 압축된다. 메모리 리소스가 제한될 수 있기 때문에, 비디오가 스토리지 디바이스 상에 저장될 때 비디오의 사이즈도 또한 문제가 될 수 있다. 비디오 압축 디바이스는 송신 또는 저장 이전에 비디오 데이터를 코딩하기 위해 소스에서 소프트웨어 및/또는 하드웨어를 종종 사용하고, 그에 의해, 디지털 비디오 이미지를 나타내는 데 필요한 데이터의 양을 감소시킨다. 그 다음, 압축된 데이터는 비디오 데이터를 디코딩하는 비디오 압축 해제 디바이스에 의해 목적지에서 수신된다. 제한된 네트워크 리소스 및 더 높은 비디오 품질에 대한 계속 증가하는 요구로 인해, 이미지 품질을 거의 또는 전혀 희생하지 않으면서 압축 비율을 향상시키는 향상된 압축 및 압축 해제 기술이 바람직하다.

한 실시형태에서, 본 개시는 디코더에 의해 구현되는 방법을 포함하는데, 그 방법은 다음의 단계를 포함한다: 디코더의 수신기에 의해, 삼차원(three-dimensional; 3D) 경계 박스 스케일(bounding box scale) 및 아틀라스 프레임(atlas frame)에서 복수의 이차원(two-dimensional; 2D) 패치를 포함하는 비트스트림을 수신하는 단계; 디코더의 프로세서에 의해, 2D 패치를 디코딩하는 단계; 프로세서에 의해, 2D 패치를, 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드(point cloud)를 재구성하는 단계; 및 프로세서에 의해, 3D 경계 박스 스케일을 3D 경계 박스에 적용하는 단계.

포인트 클라우드 코딩(Point Cloud Coding; PCC) 시스템은 3D 경계 박스의 면 상으로 포인트를 투영하는 것에 의해 포인트 클라우드를 코딩한다. 이것은 인코딩 가능한 2D 포맷과 디스플레이 가능한 3D 포맷 사이에서 또는 그 반대로 데이터를 변환한다. 예를 들면, 포인트 클라우드를 인코딩하는 것은 2D 표현을 3D 경계 박스의 각각의 면 상으로 투영하는 것을 포함할 수 있는데, 그 결과 인코딩 가능한 2D 패치의 세트를 도출한다. 게다가, 포인트 클라우드를 재구성하는 것은, 3D 포인트 클라우드를 재구성하기 위해, (지오메트리 데이터(geometry data)에 기초하여) 3D 경계 박스 면으로부터의 2D 패치를 포인트에 투영하는 것을 포함할 수 있다. 3D 경계 박스는 로컬 좌표 시스템과 사전 결정된 단위 사이즈를 활용한다. 따라서, 상이한 포인트 클라우드는 공통 표준 사이즈로 코딩될 수 있다. 그러나, 포인트 클라우드가 실제 세계 사이즈로 스케일링되어야 하는 경우가 있다. 예를 들면, 오브젝트의 포인트 클라우드는 사전 정의된 사이즈의 3D 경계 박스에 기초하여 코딩될 수 있다. 그 다음, 포인트 클라우드는 증강 현실(augmented reality; AR) 컨텍스트에서 활용될 수 있다. AR에서는, 사전 레코딩된 및/또는 컴퓨터 생성 콘텐츠가 최종 사용자에 의해 촬상되는 실시간 비디오 상으로 오버레이 된다. 몇몇 비디오 PCC 시스템은, 로컬 좌표 시스템과 사용자에 의해 촬영되는 오브젝트의 사이즈 사이의 미스매치에 기인하여, 포인트 클라우드를 비디오 상으로 적절하게 통합할 수 없을 수 있다.

본 예는, PCC 비트스트림에 인코딩될 수 있는 파라미터인 3D 경계 박스 스케일을 포함한다. 3D 경계 박스 스케일은, 포인트 클라우드로부터의 코딩된 샘플 포지션을, 로컬 좌표 시스템으로부터 최종 실제 세계 좌표 시스템으로 변환하는 파라미터이다. 이것은, 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이될 수 있도록 재구성된 포인트 클라우드가 올바르게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일은, 3D 경계 박스에서의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수이다. 3D 경계 박스 스케일은 미터 단위로 표현될 수 있다. 게다가, 3D 경계 박스 스케일이 존재하는지의 여부를 나타내기 위해 플래그가 PCC 비트스트림에 인코딩될 수 있다. 수신시, 디코더는 플래그를 판독할 수 있고 플래그에 기초하여 3D 경계 박스 스케일을 획득할 수 있다. 그 다음, 디코더는 3D 경계 박스를 스케일링할 수 있고, 패치를 디코딩할 수 있고, 3D 경계 박스에 기초하여 포인트 클라우드를 재구성할 수 있고, 그리고 재구성된 포인트 클라우드를 실제 세계 비디오 상으로 오버레이할 수 있다. 그러므로, 본 예는 AR 지원을 생성하는 것에 의해 인코더와 디코더 둘 모두에서 기능성(functionality)을 증가시킨다. 게다가, 본 개시는 코딩 효율성을 증가시키기 위한 메커니즘을 지원하고, 그러므로, 인코더 및/또는 디코더에서 프로세서, 메모리, 및/또는 네트워크 리소스 사용량의 감소를 지원한다.

선택적으로(optionally), 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 비트스트림은 3D 경계 박스 정보가 존재하는지의 여부를 나타내는 플래그를 더 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 3D 경계 박스 스케일은 플래그의 값에 기초하여 적용된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 3D 패치 좌표 시스템은 미터의 단위의 타겟 3D 좌표 시스템으로 변환된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 비트스트림은 점유 성분(occupancy component), 지오메트리 성분(geometry component), 및 속성 성분(attribute component)을 더 포함하고, 포인트 클라우드는 점유 성분, 지오메트리 성분, 및 속성 성분에 기초하여 재구성된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 점유 성분은 2D 성분의 어떤 샘플이 비디오 데이터와 관련되는지를 디코더에게 통지하고, 지오메트리 성분은 3D 공간에서 샘플의 위치를 나타내는 정보를 포함하고, 속성 성분은 샘플의 특성(property)을 제공한다.

선택적으로, 전술한 양태 중 임의의 것에서, 프로세서에 의해, 디스플레이를 위해 재구성된 아틀라스 프레임을 포워딩하는 것을 더 포함하는 양태의 다른 구현예가 제공된다.

한 실시형태에서, 본 개시는 인코더에 의해 구현되는 방법을 포함하는데, 그 방법은 다음의 것을 포함한다: 인코더의 프로세서에 의해, 포인트 클라우드를 나타내는 복수의 2D 패치를 생성하기 위해 3D 경계 박스 상으로의 직교 투영을 활용하는 것; 프로세서에 의해, 2D 패치를 비트스트림의 아틀라스 프레임에 인코딩하는 것; 프로세서에 의해, 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정하는 것; 프로세서에 의해, 3D 경계 박스 스케일을 비트스트림에 인코딩하는 것; 및 인코더의 메모리에 의해, 디코더를 향하는 통신을 위해 비트스트림을 저장하는 것.

PCC 시스템은 3D 경계 박스의 면 상으로 포인트를 투영하는 것에 의해 포인트 클라우드를 코딩한다. 이것은 인코딩 가능한 2D 포맷과 디스플레이 가능한 3D 포맷 사이에서 또는 그 반대로 데이터를 변환한다. 예를 들면, 포인트 클라우드를 인코딩하는 것은 2D 표현을 3D 경계 박스의 각각의 면 상으로 투영하는 것을 포함할 수 있는데, 그 결과 인코딩 가능한 2D 패치의 세트를 초래한다. 게다가, 포인트 클라우드를 재구성하는 것은, 3D 포인트 클라우드를 재구성하기 위해, (지오메트리 데이터에 기초하여) 3D 경계 박스 면으로부터의 2D 패치를 포인트에 투영하는 것을 포함할 수 있다. 3D 경계 박스는 로컬 좌표 시스템과 사전 결정된 단위 사이즈를 활용한다. 따라서, 상이한 포인트 클라우드는 공통 표준 사이즈로 코딩될 수 있다. 그러나, 포인트 클라우드가 실제 세계 사이즈로 스케일링되어야 하는 경우가 있다. 예를 들면, 오브젝트의 포인트 클라우드는 사전 정의된 사이즈의 3D 경계 박스에 기초하여 코딩될 수 있다. 그 다음, 포인트 클라우드는 AR 컨텍스트에서 활용될 수 있다. AR에서는, 사전 레코딩된 및/또는 컴퓨터 생성 콘텐츠가 최종 사용자에 의해 촬상되는 실시간 비디오 상으로 오버레이 된다. 몇몇 비디오 PCC 시스템은, 로컬 좌표 시스템과 사용자에 의해 촬영되는 오브젝트의 사이즈 사이의 미스매치에 기인하여, 포인트 클라우드를 비디오 상으로 적절하게 통합할 수 없을 수 있다.

본 예는, PCC 비트스트림에 인코딩될 수 있는 파라미터인 3D 경계 박스 스케일을 포함한다. 3D 경계 박스 스케일은, 포인트 클라우드로부터의 코딩된 샘플 포지션을, 로컬 좌표 시스템으로부터 최종 실제 세계 좌표 시스템으로 변환하는 파라미터이다. 이것은, 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이될 수 있도록 재구성된 포인트 클라우드가 올바르게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일은, 3D 경계 박스에서의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수이다. 3D 경계 박스 스케일은 미터 단위로 표현될 수 있다. 게다가, 3D 경계 박스 스케일이 존재하는지의 여부를 나타내기 위해 플래그가 PCC 비트스트림에 인코딩될 수 있다. 수신시, 디코더는 플래그를 판독할 수 있고 플래그에 기초하여 3D 경계 박스 스케일을 획득할 수 있다. 그 다음, 디코더는 3D 경계 박스를 스케일링할 수 있고, 패치를 디코딩할 수 있고, 3D 경계 박스에 기초하여 포인트 클라우드를 재구성할 수 있고, 그리고 재구성된 포인트 클라우드를 실제 세계 비디오 상으로 오버레이할 수 있다. 그러므로, 본 예는 AR 지원을 생성하는 것에 의해 인코더와 디코더 둘 모두에서 기능성을 증가시킨다. 게다가, 본 개시는 코딩 효율성을 증가시키기 위한 메커니즘을 지원하고, 그러므로, 인코더 및/또는 디코더에서 프로세서, 메모리, 및/또는 네트워크 리소스 사용량의 감소를 지원한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 3D 경계 박스 스케일은 3D 경계 박스의 샘플을 로컬 좌표 시스템으로부터 실제 세계 사이즈로 재스케일링하기 위한 파라미터를 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 프로세서에 의해, 3D 경계 박스 정보가 존재하는지의 여부를 나타내는 플래그를 비트스트림에 인코딩하는 단계를 더 포함하는 양태의 다른 구현예가 제공된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 플래그의 값은 3D 경계 박스 스케일을 3D 경계 박스에 적용할지의 여부를 나타낸다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 3D 경계 박스는 미터의 단위로 스케일링된다.

선택적으로, 전술한 양태 중 임의의 것에서, 프로세서에 의해, 점유 성분, 지오메트리 성분, 및 속성 성분을 비트스트림에 인코딩하는 것을 더 포함하는 양태의 다른 구현예가 제공된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 점유 성분은 아틀라스 프레임의 어떤 샘플이 비디오 데이터와 관련되는지를 디코더에게 통지하고, 지오메트리 성분은 3D 공간에서 샘플의 위치를 나타내는 정보를 포함하고, 속성 성분은 샘플의 특성을 제공한다.

한 실시형태에서, 본 개시는, 프로세서, 프로세서에 커플링되는 수신기, 프로세서에 커플링되는 메모리, 및 프로세서에 커플링되는 송신기를 포함하는 비디오 코딩 디바이스를 포함하는 비디오 코딩 디바이스를 포함하는데, 여기서 프로세서, 수신기, 메모리, 및 송신기는 전술한 양태 중 임의의 것의 방법을 수행하도록 구성된다.

한 실시형태에서, 본 개시는 비디오 코딩 디바이스에 의한 사용을 위한 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독 가능 매체를 포함하는데, 컴퓨터 프로그램 제품은, 프로세서에 의해 실행될 때 비디오 코딩 디바이스로 하여금 전술한 양태 중 임의의 것의 방법을 수행하게 하는 비일시적 컴퓨터 판독 가능 매체 상에 저장되는 컴퓨터 실행 가능 명령어를 포함한다.

한 실시형태에서, 본 개시는 다음의 것을 포함하는 디코더를 포함한다: 3D 경계 박스 스케일 및 아틀라스 프레임에서 복수의 2D 패치를 포함하는 비트스트림을 수신하기 위한 수신 수단; 패치를 디코딩하기 위한 디코딩 수단; 패치를 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드를 재구성하기 위한 재구성 수단; 및 3D 경계 박스 스케일을 3D 경계 박스에 적용하기 위한 적용 수단.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 디코더는 전술한 양태 중 임의의 것의 방법을 수행하도록 추가로 구성된다.

한 실시형태에서, 본 개시는 다음의 것을 포함하는 인코더를 포함한다: 포인트 클라우드를 나타내는 복수의 2D 패치를 생성하기 위해 3D 경계 박스 상으로의 직교 투영을 활용하기 위한 활용 수단; 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정하기 위한 결정 수단; 2D 패치를 비트스트림의 아틀라스 프레임에 인코딩하기 위한; 그리고 3D 경계 박스 스케일을 비트스트림에 인코딩하기 위한 인코딩 수단; 및 디코더를 향하는 통신을 위해 비트스트림을 저장하기 위한 저장 수단.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 인코더는 전술한 양태 중 임의의 것의 방법을 수행하도록 추가로 구성된다.

한 실시형태에서, 본 개시는 사용자 기기(UE)에 의해 구현되는 방법을 포함하는데, 그 방법은 다음의 것을 포함한다: 비디오 포인트 클라우드 코딩(V-PCC) 비트스트림으로부터, 중앙 프로세싱 유닛(central processing unit; CPU)에 의해, 아틀라스 데이터로부터의 패치 및 지오메트리 데이터로부터의 정점(vertex)을 디코딩하는 것; 패치 및 정점을 하나 이상의 버퍼에 저장하는 것; GPU에 의해, 패치 및 정점을 하나 이상의 GPU 쉐이더에 텍스쳐로서 바인딩하는 것; 3D 재구성된 포인트 클라우드의 2D 이미지를 생성하기 위해, GPU 쉐이더에 의해, 변환 매트릭스를 통해 패치를 정점 상으로 렌더링하는 것.

비디오 데이터를 렌더링하기 위한 다양한 렌더링 기술이 존재한다. 그러나, PCC 비디오 데이터에 대한 렌더링 기술의 단순한 적용은 비효율적인 렌더링 프로세스를 초래할 수 있다. 예를 들면, 많은 타입의 비디오 데이터는, 디코딩될 수 있고, CPU로부터 그래픽 프로세싱 유닛(graphic processing unit; GPU)로 전송될 수 있고, 디스플레이를 위해 렌더링될 수 있는 단일의 타입의 데이터를 포함한다. 그러나, PCC는 서로 상호 작용하는 다수의 타입의 비디오 데이터를 활용한다. 따라서, 몇몇 렌더링 시스템은 소정의 렌더링 태스크를 위해 아틀라스, 지오메트리, 점유, 및/또는 속성 비디오 데이터를 CPU로부터 GPU로 디코딩 및 전송할 수 있다. 그 다음, 데이터는 CPU로 다시 전송되어 결합된다. 그 다음, 결과는 디스플레이 이전에 완전한 렌더링을 위해 GPU로 다시 전송된다. CPU와 GPU 사이에서의 그러한 이동은, 각각의 렌더링된 프레임에 대한 CPU 버퍼와 GPU 버퍼 사이의 다수의 전송을 초래하는데, 이것은 렌더링 프로세스에서 레이턴시 및 리소스 사용량을 크게 증가시킨다.

본 예는 렌더링 프로세스 동안 반복된 메모리 이동을 방지하도록 구성되는 V-PCC 렌더러를 포함한다. CPU는 아틀라스 데이터(예를 들면, 패치), 점유, 지오메트리(예를 들면, 정점), 및/또는 속성 데이터를 디코딩하기 위해 사용될 수 있다. 그러한 데이터는 정점 버퍼 및/또는 유니폼 버퍼(uniform buffer)와 같은 하나 이상의 버퍼에 저장된다. 그 다음, GPU 쉐이더는, 3D 포인트 클라우드를 재구성하고 포인트 클라우드로부터 2D 이미지를 렌더링하기 위해, 버퍼의 데이터에 바인딩될 수 있다. 예를 들면, 압축 프로세스로부터의 아티팩트(artifact)인 패치 데이터, 지오메트리 데이터, 및/또는 속성 데이터를 제거하기 위해, GPU 쉐이더는 점유를 텍스쳐로서 적용할 수 있다. 다른 GPU 쉐이더는 모델 매트릭스를 초기화할 수 있고 지오메트리 데이터로부터 3D 모델의 정점을 생성할 수 있다. 또 다른 쉐이더는 패치 및/또는 속성을 텍스쳐로서 정점 상으로 투영할 수 있다. 이것은, 그러한 데이터를 CPU 버퍼로부터 GPU 버퍼로 복사하지 않고도 수행될 수 있다. 3D 포인트 클라우드로부터 디스플레이를 위한 2D 이미지를 생성하기 위해, 변환이 또한 사용될 수 있다. 패치의 서브 블록과 같은 텍스쳐가 다수의 쉐이더에 할당될 수 있는데, 이것은 GPU에서 병렬 프로세싱 성능을 증가시킨다. 몇몇 예에서, V-PCC 이미지의 전체 프레임은 GPU에 대한 단일의 드로우 콜(draw call)을 사용하여 렌더링될 수 있다. 그러한 렌더링은, 대부분의 사용자 기기 디바이스가 AR 애플리케이션에서 V-PCC 콘텐츠를 활용하는 것을 허용할 만큼 충분히 빠르게 수행될 수 있다. 그러한 만큼, 개시된 예는 V-PCC 데이터를 디코딩할 때 디코더의 성능을 증가시킨다. 게다가, 본 예는 프로세서, 메모리, 및/또는 GPU 리소스 사용량을 감소시키고, 그러므로, 디코더의 기능성을 증가시킨다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 GPU 쉐이더는 패치 또는 정점을 GPU 메모리에 복사하지 않고도 정점 상에 패치를 렌더링한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 패치를 정점 상으로 렌더링하는 것은, CPU로부터의 단일의 드로우 콜에 응답하여, 단일의 V-PCC 프레임과 관련되는 모든 패치를 정점 상으로 병렬로 렌더링하는 것을 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 패치를 병렬로 렌더링하는 것은 CPU 버퍼로부터 패치에 대한 패치 인덱스를 획득하는 것 및 패치 인덱스에 기초하여 패치 각각에 대한 패치 방위를 결정하는 것을 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 다음의 것을 더 포함하는 양태의 다른 구현예가 제공된다: CPU에 의해, V-PCC 비트스트림으로부터 점유를 디코딩하는 것; 점유를 버퍼에 저장하는 것; GPU에 의해, 점유를 텍스쳐로서 GPU 쉐이더에 바인딩하는 것; 및 패치를 정점 상으로 렌더링하기 이전에 정점과 관련되는 하나 이상의 포인트를 거부하기 위해, GPU 쉐이더에 의해, 점유를 적용하는 것.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 점유는 패치 및 정점에 적용된다.

선택적으로, 전술한 양태 중 임의의 것에서, 패치를 정점 상으로 렌더링하기 이전에 정점을 원점 주위의 정규화된 단위 정사각형에 적합시키기 위해 모델 매트릭스를 초기화하는 것을 더 포함하는 양태의 다른 구현예가 제공된다.

선택적으로, 전술한 양태 중 임의의 것에서, GPU에 의해, 패치를 서브 블록으로 세분하는 것을 더 포함하는 양태의 다른 구현예가 제공되는데, 여기서 각각의 서브 블록은 상이한 GPU 쉐이더에 의해 렌더링된다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 버퍼는 패치를 캐시 메모리에 저장하는 유니폼 버퍼를 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 버퍼는 정점을 저장하는 정점 버퍼를 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 GPU 쉐이더는 지오메트리 쉐이더, 컴퓨트 쉐이더(compute shader), 또는 이들의 조합을 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 지오메트리 쉐이더에 의해 방출되는 정점의 최대 개수는 점유 해상도(occupancy resolution) 곱하기 레이어의 개수와 동일하다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 변환 매트릭스를 통해 패치를 정점 상으로 렌더링하는 것은, 증강 현실(AR) 콘텐츠를 생성하기 위해, 패치 및 정점을 레코딩된 이미지 상으로 렌더링하는 것을 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 변환 매트릭스는 아틀라스 공간으로부터 패치 공간으로 변환하기 위한 캔버스 대 패치 매트릭스(canvas to patch matrix), 모델 공간으로부터 세계 공간(world space)으로 변환하기 위한 모델 매트릭스, 세계 공간으로부터 카메라 공간으로 변환하기 위한 카메라 뷰 매트릭스, 및 카메라 공간으로부터 스크린 공간으로 변환하기 위한 투영 매트릭스를 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 양태의 다른 구현예가 제공되는데, 여기서 패치를 정점 상으로 렌더링하는 것은 패치를 정점의 포인트 상으로 투영하는 것을 포함한다.

선택적으로, 전술한 양태 중 임의의 것에서, 3D 포인트 클라우드의 2D 이미지를 스크린을 향해 포워딩하는 것을 더 포함하는 양태의 다른 구현예가 제공된다.

명확화의 목적을 위해, 전술한 실시형태 중 임의의 하나는 다른 전술한 실시형태 중 임의의 하나 이상과 조합되어 본 개시의 범위 내에 있는 새로운 실시형태를 생성할 수 있다.

이들 및 다른 피쳐(feature)는 첨부의 도면 및 청구범위와 연계하여 취해지는 다음의 상세한 설명으로부터 더욱 명확하게 이해될 것이다.

본 개시의 더욱 완전한 이해를 위해, 이제, 첨부의 도면 및 상세한 설명과 관련하여 취해지는 다음의 간략한 설명에 대한 참조가 이루어지는데, 첨부의 도면 및 상세한 설명에서 같은 참조 번호는 같은 부분을 나타낸다.
도 1은 비디오 신호를 코딩하는 예시적인 방법의 플로우차트이다.
도 2는 비디오 코딩을 위한 예시적인 코딩 및 디코딩(코덱) 시스템의 개략도이다.
도 3은 예시적인 비디오 인코더를 예시하는 개략도이다.
도 4는 예시적인 비디오 디코더를 예시하는 개략도이다.
도 5는 포인트 클라우드 압축(Point Cloud Compression; PCC) 메커니즘에 따라 코딩될 수 있는 포인트 클라우드 미디어의 예이다.
도 6은 포인트 클라우드로부터 생성되는 패치의 예이다.
도 7a는 패치의 세트와 관련되는 예시적인 점유 프레임을 예시한다.
도 7b는 패치의 세트와 관련되는 예시적인 지오메트리 프레임을 예시한다.
도 7c는 패치의 세트와 관련되는 예시적인 아틀라스 프레임을 예시한다.
도 8은 대응하는 3D 경계 박스를 스케일링하는 것에 의해 재구성된 포인트 클라우드를 스케일링하기 위한 예시적인 메커니즘이다.
도 9는 포인트 클라우드를 스케일링함에 있어서의 사용을 위한 예시적인 비디오 PCC(V-PCC) 비트스트림을 예시하는 개략도이다.
도 10은 예시적인 비디오 코딩 디바이스의 개략도이다.
도 11은 재구성시 포인트 클라우드의 스케일링을 지원하기 위해 PCC 비트스트림을 인코딩하는 예시적인 방법의 플로우차트이다.
도 12는 스케일링된 포인트 클라우드를 재구성하기 위해 PCC 비트스트림을 디코딩하는 예시적인 방법의 플로우차트이다.
도 13은 재구성시 포인트 클라우드의 스케일링을 지원하기 위해 PCC 비트스트림을 코딩하기 위한 예시적인 시스템의 개략도이다.
도 14는 V-PCC 비트스트림에서의 데이터 단위의 예시적인 세트의 개략도이다.
도 15는 예시적인 V-PCC 렌더러의 개략도이다.
도 16은 V-PCC 비트스트림을 렌더링하는 예시적인 방법의 플로우차트이다.

하나 이상의 실시형태의 예시적인 구현예가 하기에서 제공되지만, 개시되는 시스템 및/또는 방법은, 현재 공지되어 있든 또는 존재하고 있든 간에, 임의의 개수의 기술을 사용하여 구현될 수 있다는 것이 최초부터 이해되어야 한다. 본 개시는, 본원에서 예시되고 설명되는 예시적인 설계 및 구현예를 비롯한, 하기에서 예시되는 예시적인 구현예, 도면, 및 기술로 어떤 식으로든 제한되어서는 안되며, 첨부된 청구범위의 범위 내에서, 덧붙여, 그들의 등가물의 전체 범위 내에서 수정될 수 있다.

다음의 용어는 본원에서 반대되는 맥락에서 사용되지 않는 한 다음과 같이 정의된다. 구체적으로, 다음의 정의는 본 개시에 추가적인 명확성을 제공하도록 의도된다. 그러나, 용어는 상이한 맥락에서 상이하게 설명될 수 있다. 따라서, 다음의 정의는 보충으로서 간주되어야 하며 본원에서 그러한 용어에 대해 제공되는 설명의 임의의 다른 정의를 제한하는 것으로서 간주되어서는 안된다.

인코더는 비디오 데이터를 비트스트림으로 압축하기 위해 인코딩 프로세스를 활용하도록 구성되는 디바이스이다. 디코더는 디스플레이를 위해 비트스트림으로부터 비디오 데이터를 재구성하기 위해 디코딩 프로세스를 활용하도록 구성되는 디바이스이다. 포인트 클라우드/포인트 클라우드 표현은 삼차원(3D) 공간에서의 포인트(예를 들면, 샘플)의 그룹인데, 여기서 각각의 포인트는 포지션, 컬러, 및/또는 속성(들)을 포함할 수 있다. 포인트의 3D 클라우드는 데이터 포인트 공간의 세트이다. 비트스트림은 인코더와 디코더 사이의 송신을 위해 압축되는 비디오 데이터를 포함하는 비트의 시퀀스이다. 포인트 클라우드 코딩(PCC) 컨텍스트에서, 비트스트림은 코딩된 비디오 포인트 클라우드 압축(V-PCC) 성분 및 관련된 파라미터의 비트의 시퀀스를 포함한다.

V-PCC 성분(또는 더 일반적으로는, PCC 성분)은, V-PCC 포인트 클라우드와 관련되는 특정한 타입의 아틀라스 데이터, 점유 데이터, 지오메트리 데이터, 또는 속성 데이터일 수 있다. 아틀라스/아틀라스 프레임은, 볼륨 데이터(volumetric data)가 렌더링되는, 3D 경계 박스로서 공지되어 있는, 3D 공간의 볼륨에 대응하는 직사각형 프레임에 투영되는 이차원(2D) 경계 박스(패치로서 또한 공지되어 있음)의 콜렉션(collection)일 수 있다. 각각의 2D 경계 박스/패치는 포인트 클라우드의 서브세트를 나타낸다. 패치는 볼륨 정보(volumetric information)와 관련되는 아틀라스 내의 2D 직사각형 영역이다. 3D 경계 박스는, 직각으로 배치되는 여섯 개의 직사각형 면을 갖는 직육면체 솔리드(cuboid solid)로서 정의되는 볼륨이다. 3D 경계 박스 스케일은, 오브젝트에 대해 명시될 수 있는 3D 경계 박스 파라미터에 적용될 스케일을 나타내는 파라미터이다. 3D 패치 좌표 시스템은 3D 공간에서 패치의 샘플에 대응하는 위치를 고유하게 식별하기 위해 숫자를 활용하기 위한 메커니즘이다. 점유는 아틀라스 샘플이 3D 공간의 관련된 샘플에 대응하는지의 여부를 나타내는 값이다. 점유 프레임은 2D 어레이를 구성하는 점유 값의 콜렉션일 수 있으며 단일의 아틀라스 프레임에 대한 전체 점유 정보를 나타낸다. 따라서, 점유 프레임은, 아틀라스의 각각의 샘플 포지션에 대해, 그 포지션이 포인트 클라우드 표현의 유효한 3D 포인트에 대응하는지의 여부를 나타낼 수 있다. 지오메트리는 볼륨 프레임과 관련되는 데카르트 좌표(cartesian coordinates)의 세트이다. 지오메트리 맵은 특정한 깊이에서 투영되는 지오메트리 패치 정보를 포함하는 프레임이다. 속성은, 선택적으로, 컬러, 반사율, 표면 법선, 타임 스탬프, 재료 식별자(identifier; ID), 등등과 같은 포인트 클라우드의 볼륨 프레임의 각각의 포인트와 관련되는 스칼라 또는 벡터 특성일 수 있다. 볼륨 프레임은 데카르트 좌표에 의해 명시되는 3D 포인트의 세트 및 특정한 시간 인스턴스에서의 제로 개 이상의 대응하는 속성의 세트이다. 특정한 시간 인스턴스/볼륨 프레임과 관련되는 아틀라스 데이터, 점유, 지오메트리 맵, 또는 속성의 완전한 세트는, 각각, 아틀라스 프레임, 점유 프레임, 지오메트리 프레임, 및 속성 프레임으로 지칭될 수 있다. 아틀라스 데이터, 점유 데이터, 지오메트리 데이터, 또는 속성 데이터는 포인트 클라우드의 성분일 수 있고, 그러므로, 각각, 아틀라스 성분, 점유 성분, 지오메트리 성분, 및 속성 프레임 성분으로서 지칭될 수 있다. 플래그는 관련된 기능 또는 프로세스에 대한 데이터를 시그널링하는 값이다.

비디오 포인트 클라우드 코딩(PCC)은, 다양한 컬러, 밝기(light), 및/또는 다른 속성의 포인트의 3D 클라우드에 의해 표현되는 삼차원(3D) 오브젝트를 효율적으로 코딩하기 위한 메커니즘이다. 포인트 클라우드 및 관련된 모션/변경은 시간이 지남에 따라 캡쳐되고 PCC 성분에 포함된다. 그 다음, PCC 성분은 인코딩된다. 시간 인스턴스에서 클라우드의 각각의 유효한 포인트의 포지션은 지오메트리 프레임에서 지오메트리 맵으로서 저장된다. 컬러 및 휘도는 패치로서 저장된다. 특히, 시간적으로 한 순간에서의 패치는 아틀라스 프레임에 패킹된다. 패치는 일반적으로 전체 아틀라스 프레임을 피복하지는 않는다. 따라서, 아틀라스 프레임의 어떤 부분이 패치 데이터를 포함하는지를 나타내는 점유 프레임이 또한 생성된다. 선택적으로, 투명도와 같은 포인트의 속성이 속성 프레임에 포함될 수 있다. 그러한 만큼, 각각의 PCC 프레임은 시간적으로 대응하는 순간에 포인트 클라우드를 설명하는 상이한 성분을 포함하는 복수의 프레임으로서 인코딩될 수 있다.

PCC 시스템은 3D 경계 박스의 면 상으로 포인트를 투영하는 것에 의해 포인트 클라우드를 코딩한다. 이것은 인코딩 가능한 2D 포맷과 디스플레이 가능한 3D 포맷 사이에서 또는 그 반대로 데이터를 변환한다. 예를 들면, 포인트 클라우드를 인코딩하는 것은 2D 표현을 3D 경계 박스의 각각의 면 상으로 투영하는 것을 포함할 수 있는데, 그 결과 인코딩 가능한 2D 패치의 세트를 초래한다. 게다가, 포인트 클라우드를 재구성하는 것은, 3D 포인트 클라우드를 재구성하기 위해, (지오메트리 데이터에 기초하여) 3D 경계 박스 면으로부터의 2D 패치를 포인트에 투영하는 것을 포함할 수 있다. 3D 경계 박스는 로컬 좌표 시스템과 사전 결정된 단위 사이즈를 활용한다. 따라서, 상이한 포인트 클라우드는 공통 표준 사이즈로 코딩될 수 있다. 그러나, 포인트 클라우드가 실제 세계 사이즈로 스케일링되어야 하는 경우가 있다. 예를 들면, 오브젝트의 포인트 클라우드는 사전 정의된 사이즈의 3D 경계 박스에 기초하여 코딩될 수 있다. 그 다음, 포인트 클라우드는 증강 현실(AR) 컨텍스트에서 활용될 수 있다. AR에서는, 사전 레코딩된 및/또는 컴퓨터 생성 콘텐츠가 최종 사용자에 의해 촬상되는 실시간 비디오 상으로 오버레이 된다. 몇몇 비디오 PCC 시스템은, 로컬 좌표 시스템과 사용자에 의해 촬영되는 오브젝트의 사이즈 사이의 미스매치에 기인하여, 포인트 클라우드를 비디오 상으로 적절하게 통합할 수 없을 수 있다.

PCC 비트스트림에 인코딩될 수 있는 파라미터인 3D 경계 박스 스케일이 본원에서 개시된다. 3D 경계 박스 스케일은, 포인트 클라우드로부터의 코딩된 샘플 포지션을, 로컬 좌표 시스템으로부터 최종 실제 세계 좌표 시스템으로 변환하는 파라미터이다. 이것은, 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이될 수 있도록 재구성된 포인트 클라우드가 올바르게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일은, 3D 경계 박스에서의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수이다. 3D 경계 박스 스케일은 미터 단위로 표현될 수 있다. 게다가, 3D 경계 박스 스케일이 존재하는지의 여부를 나타내기 위해 플래그가 PCC 비트스트림에 인코딩될 수 있다. 수신시, 디코더는 플래그를 판독할 수 있고 플래그에 기초하여 3D 경계 박스 스케일을 획득할 수 있다. 그 다음, 디코더는 3D 경계 박스를 스케일링할 수 있고, 패치를 디코딩할 수 있고, 3D 경계 박스에 기초하여 포인트 클라우드를 재구성할 수 있고, 그리고 재구성된 포인트 클라우드를 실제 세계 비디오 상으로 오버레이할 수 있다. 그러므로, 본 예는 AR 지원을 생성하는 것에 의해 인코더와 디코더 둘 모두에서 기능성을 증가시킨다. 게다가, 본 개시는 코딩 효율성을 증가시키기 위한 메커니즘을 지원하고, 그러므로, 인코더 및/또는 디코더에서 프로세서, 메모리, 및/또는 네트워크 리소스 사용량의 감소를 지원한다.

도 1 내지 도 4는 비디오를 인코딩 및 디코딩하기 위해 사용되는 다양한 코딩 메커니즘을 설명한다. 도 5 내지 도 8은, 포인트 클라우드를, 도 1 내지 도 4에서 설명되는 메커니즘에 의해 인코딩 및 디코딩될 수 있는 포맷으로 변환하기 위해 사용되는 메커니즘을 설명한다.

도 1은 비디오 신호를 코딩하는 예시적인 동작 방법(100)의 플로우차트이다. 구체적으로, 비디오 신호는 인코더에서 인코딩된다. 인코딩 프로세스는 비디오 파일 사이즈를 감소시키기 위해 다양한 메커니즘을 활용하는 것에 의해 비디오 신호를 압축한다. 더 작은 파일 사이즈는, 관련된 대역폭 오버헤드를 감소시키면서, 압축된 비디오 파일이 사용자를 향해 송신되는 것을 허용한다. 그 다음, 디코더는, 최종 사용자에 대한 디스플레이를 위해 원래의 비디오 신호를 재구성하기 위해, 압축된 비디오 파일을 디코딩한다. 디코딩 프로세스는 디코더가 비디오 신호를 일치하게 재구성하는 것을 허용하기 위해 인코딩 프로세스를 일반적으로 미러링한다.

단계(101)에서, 비디오 신호는 인코더에 입력된다. 예를 들면, 비디오 신호는 메모리에 저장되는 비압축 비디오 파일일 수 있다. 다른 예로서, 비디오 파일은 비디오 카메라와 같은 비디오 캡쳐 디바이스에 의해 캡쳐될 수 있고, 비디오의 라이브 스트리밍을 지원하도록 인코딩될 수 있다. 비디오 파일은 오디오 성분 및 비디오 성분 둘 모두를 포함할 수 있다. 비디오 성분은, 시퀀스에서 봤을 때, 모션의 시각적 인상을 제공하는 일련의 이미지 프레임을 포함한다. 프레임은 본원에서 루마 성분(또는 루마 샘플)으로서 지칭되는 밝기, 및 크로마 성분(또는 컬러 샘플)으로서 지칭되는 컬러의 관점에서 표현되는 픽셀을 포함한다. 몇몇 예에서, 프레임은 삼차원 뷰잉(three-dimensional viewing)을 지원하기 위해 깊이 값을 또한 포함할 수 있다.

단계(103)에서, 비디오는 블록으로 구획된다. 구획화(partitioning)는 압축을 위해 각각의 프레임의 픽셀을 정사각형 및/또는 직사각형 블록으로 세분화하는 것을 포함한다. 예를 들면, 고효율 비디오 코딩(HEVC)(H.265 및 MPEG-H 파트 2로서 또한 알려져 있음)에서, 프레임은, 먼저, 사전 정의된 사이즈(예를 들면, 64 픽셀×64 픽셀)의 블록인 코딩 트리 단위(CTU)로 분할될 수 있다. CTU는 루마 및 크로마 샘플 둘 모두를 포함한다. CTU를 블록으로 분할하기 위해, 그 다음, 추가적인 인코딩을 지원하는 구성이 달성될 때까지 블록을 재귀적으로 세분화하기 위해, 코딩 트리가 활용될 수 있다. 예를 들면, 프레임의 루마 성분은, 개개의 블록이 상대적으로 균질한 밝기 값을 포함할 때까지, 세분화될 수 있다. 게다가, 프레임의 크로마 성분은, 개개의 블록이 상대적으로 균질한 컬러 값을 포함할 때까지, 세분화될 수 있다. 따라서, 구획화 메커니즘은 비디오 프레임의 콘텐츠에 따라 변한다.

단계(105)에서, 단계(103)에서 구획되는 이미지 블록을 압축하기 위해 다양한 압축 메커니즘이 활용된다. 예를 들면, 인터 예측 및/또는 인트라 예측이 활용될 수 있다. 인터 예측은, 공통 장면의 오브젝트가 연속 프레임에서 나타나는 경향이 있다는 사실을 이용하도록 설계된다. 따라서, 참조 프레임의 오브젝트를 묘사하는 블록은 인접 프레임에서 반복적으로 설명될 필요가 없다. 구체적으로, 테이블과 같은 오브젝트는 다수의 프레임에 걸쳐 일정한 포지션에 남아 있을 수 있다. 그러므로 테이블은 한 번 설명되고 인접 프레임은 참조 프레임을 다시 참조할 수 있다. 다수의 프레임에 걸쳐 오브젝트를 매치시키기 위해 패턴 매칭 메커니즘이 활용될 수 있다. 게다가, 움직이는 오브젝트는, 예를 들면, 오브젝트 움직임 또는 카메라 움직임에 기인하여, 다수의 프레임에 걸쳐 표현될 수 있다. 특정한 예로서, 비디오는 다수의 프레임에 걸쳐 스크린을 가로질러 움직이는 자동차를 보여줄 수 있다. 모션 벡터는 그러한 움직임을 설명하기 위해 활용될 수 있다. 모션 벡터는, 한 프레임에서의 오브젝트의 좌표로부터 참조 프레임에서의 오브젝트의 좌표로의 오프셋을 제공하는 이차원 벡터이다. 그러한 만큼, 인터 예측은 현재 프레임의 이미지 블록을, 참조 프레임의 대응하는 블록으로부터의 오프셋을 나타내는 모션 벡터의 세트로서 인코딩할 수 있다.

인트라 예측은 공통 프레임의 블록을 인코딩한다. 인트라 예측은 루마 및 크로마 성분이 프레임에서 클러스터화되는 경향이 있다는 사실을 이용한다. 예를 들면, 트리의 한 부분에 있는 녹색의 패치는 녹색의 유사한 패치에 인접하게 배치되는 경향이 있다. 인트라 예측은 다수의 방향성 예측 모드(예를 들면, HEVC에서 33 개), 평면 모드, 및 직류(direct current; DC) 모드를 활용한다. 방향성 모드는, 현재 블록이 대응하는 방향에서 이웃 블록의 샘플과 유사/동일하다는 것을 나타낸다. 평면 모드는, 행/열(예를 들면, 평면)을 따르는 일련의 블록이 행의 가장자리에 있는 이웃 블록에 기초하여 보간될 수 있다는 것을 나타낸다. 평면 모드는, 사실상, 값을 변경함에 있어서 상대적으로 일정한 기울기를 활용하는 것에 의해 행/열에 걸친 밝기/컬러의 부드러운 전이를 나타낸다. DC 모드는 경계 평활화를 위해 활용되며, 블록이, 방향성 예측 모드의 각도 방향과 관련되는 모든 이웃 블록의 샘플과 관련되는 평균 값과 유사/동일하다는 것을 나타낸다. 따라서, 인트라 예측 블록은 이미지 블록을, 실제 값 대신, 다양한 관계형 예측 모드 값으로서 표현할 수 있다. 게다가, 인터 예측 블록은 이미지 블록을, 실제 값 대신, 모션 벡터 값으로서 나타낼 수 있다. 어느 경우든, 예측 블록은, 몇몇 경우에, 이미지 블록을 정확하게 나타내지 않을 수 있다. 임의의 차이는 잔차 블록에 저장된다. 파일을 추가로 압축하기 위해, 잔차 블록에 변환이 적용될 수 있다.

단계(107)에서, 다양한 필터링 기술이 적용될 수 있다. HEVC에서, 필터는 루프내 필터링 스킴(in-loop filtering scheme)에 따라 적용된다. 상기에서 논의되는 블록 기반의 예측은 디코더에서 농담이 고르지 않은(blocky) 이미지의 생성을 초래할 수 있다. 게다가, 블록 기반의 예측 스킴은 블록을 인코딩할 수 있고, 그 다음, 참조 블록으로서의 나중의 사용을 위해 인코딩된 블록을 재구성할 수 있다. 루프내 필터링 스킴은 노이즈 억제 필터, 블록화 제거 필터(de-blocking filter), 적응적 루프 필터, 및 샘플 적응적 오프셋(sample adaptive offset; SAO) 필터를 블록/프레임에 반복적으로 적용한다. 이들 필터는, 인코딩된 파일이 정확하게 재구성될 수 있도록 그러한 차단 아티팩트(artifact)를 완화한다. 게다가, 재구성된 참조 블록에 기초하여 인코딩되는 후속하는 블록에서 아티팩트가 추가적인 아티팩트를 생성할 가능성이 적도록, 이들 필터는 재구성된 참조 블록에서 아티팩트를 완화한다.

일단 비디오 신호가 구획, 압축, 및 필터링되면, 결과적으로 나타나는 데이터는, 단계(109)에서, 비트스트림에서 인코딩된다. 비트스트림은 상기에서 논의되는 데이터뿐만 아니라 디코더에서 적절한 비디오 신호 재구성을 지원하기 위해 소망되는 임의의 시그널링 데이터를 포함한다. 예를 들면, 그러한 데이터는 구획 데이터(partition data), 예측 데이터, 잔차 블록, 및 디코더에 코딩 명령어를 제공하는 다양한 플래그를 포함할 수 있다. 비트스트림은 요청시 디코더를 향한 송신을 위해 메모리에 저장될 수 있다. 비트스트림은 또한 복수의 디코더를 향해 브로드캐스트 및/또는 멀티캐스트될 수 있다. 비트스트림 생성은 반복적인 프로세스이다. 따라서, 단계(101, 103, 105, 107, 및 109)는 많은 프레임 및 블록에 걸쳐 연속적으로 및/또는 동시적으로 발생할 수 있다. 도 1에서 도시되는 순서는 논의의 명확성 및 용이성을 위해 제시되며, 비디오 코딩 프로세스를 특정한 순서로 제한하도록 의도되지는 않는다.

디코더는 비트스트림을 수신하고 단계(111)에서 디코딩 프로세스를 시작한다. 구체적으로, 디코더는 비트스트림을 대응하는 신택스 및 비디오 데이터로 변환하기 위해 엔트로피 디코딩 스킴을 활용한다. 디코더는 단계(111)에서 프레임에 대한 구획을 결정하기 위해 비트스트림으로부터의 신택스 데이터를 활용한다. 구획화는 단계(103)의 블록 구획화의 결과와 매치해야 한다. 이제, 단계(111)에서 활용되는 바와 같은 엔트로피 인코딩/디코딩이 설명된다. 인코더는, 입력 이미지(들)에서의 값의 공간적 위치 결정에 기초하여 여러 가지 가능한 선택지로부터 블록 구획화 스킴을 선택하는 것과 같은, 압축 프로세스 동안 많은 선택을 행한다. 정확한 선택을 시그널링하는 것은 많은 개수의 빈(bin)을 활용할 수 있다. 본원에서 사용되는 바와 같이, 빈은 변수로서 취급되는 이진 값(예를 들면, 컨텍스트에 따라 변할 수 있는 비트 값)이다. 엔트로피 코딩은, 허용 가능한 옵션의 세트를 남기면서, 특정한 경우에 대해 명확하게 실행 가능하지 않은 임의의 옵션을 인코더가 폐기하는 것을 허용한다. 그 다음, 각각의 허용 가능한 옵션은 코드 워드를 할당받는다. 코드 워드의 길이는 허용 가능한 옵션의 개수에 기초한다(예를 들면, 두 개의 옵션의 경우 하나의 빈, 세 개 내지 네 개의 옵션의 경우 두 개의 빈, 등등). 그 다음, 인코더는 선택된 옵션에 대한 코드 워드를 인코딩한다. 이 스킴은, 모든 가능한 옵션의 잠재적으로 큰 세트로부터 선택하는 것을 고유하게 나타내는 것과는 대조적으로, 허용 가능한 옵션의 작은 서브세트로부터의 선택을 고유하게 나타내기 위해 소망되는 만큼 코드 워드가 크기 때문에, 코드 워드의 사이즈를 감소시킨다. 그 다음, 디코더는 인코더와 유사한 방식으로 허용 가능한 옵션의 세트를 결정하는 것에 의해 선택을 디코딩한다. 허용 가능한 옵션의 세트를 결정하는 것에 의해, 디코더는 코드 워드를 판독할 수 있고 인코더에 의해 만들어지는 선택을 결정할 수 있다.

단계(113)에서, 디코더는 블록 디코딩을 수행한다. 구체적으로, 디코더는 잔차 블록을 생성하기 위해 역변환을 활용한다. 그 다음, 디코더는, 구획화에 따라 이미지 블록을 재구성하기 위해, 잔차 블록 및 대응하는 예측 블록을 활용한다. 예측 블록은, 단계(105)에서, 인코더에서 생성되는 바와 같은 인트라 예측 블록 및 인터 예측 블록 둘 모두를 포함할 수 있다. 그 다음, 재구성된 이미지 블록은, 단계(111)에서 결정되는 구획화 데이터에 따라 재구성된 비디오 신호의 프레임에 배치된다. 단계(113)에 대한 신택스는 상기에서 논의되는 바와 같이 엔트로피 코딩을 통해 비트스트림에서 또한 시그널링될 수 있다.

단계(115)에서, 재구성된 비디오 신호의 프레임에 대해, 인코더에서의 단계(107)와 유사한 방식으로, 필터링이 수행된다. 예를 들면, 블록화 아티팩트(blocking artifact)를 제거하기 위해, 노이즈 억제 필터, 블록화 제거 필터, 적응적 루프 필터, 및 SAO 필터가 프레임에 적용될 수 있다. 일단 프레임이 필터링되면, 비디오 신호는 최종 사용자에 의한 뷰잉을 위해 단계(117)에서 디스플레이로 출력될 수 있다.

도 2는 비디오 코딩을 위한 예시적인 코딩 및 디코딩(코덱) 시스템(200)의 개략도이다. 구체적으로, 코덱 시스템(200)은 동작 방법(100)의 구현을 지원하기 위한 기능성을 제공한다. 코덱 시스템(200)은 인코더 및 디코더 둘 모두에서 활용되는 컴포넌트를 묘사하도록 일반화된다. 코덱 시스템(200)은 동작 방법(100)의 단계(101 및 103)와 관련하여 논의되는 바와 같이 비디오 신호를 수신 및 구획하는데, 이것은 구획된 비디오 신호(201)를 초래한다. 코덱 시스템(200)은, 그 다음, 방법(100)의 단계(105, 107, 및 109)와 관련하여 논의되는 바와 같이 인코더로서 작용할 때 구획된 비디오 신호(201)를 코딩된 비트스트림으로 압축한다. 디코더로서 작용할 때, 코덱 시스템(200)은 동작 방법(100)의 단계(111, 113, 115, 및 117)와 관련하여 논의되는 바와 같이 비트스트림으로부터 출력 비디오 신호를 생성한다. 코덱 시스템(200)은 일반 코더 제어 컴포넌트(211), 변환 스케일링 및 양자화 컴포넌트(213), 인트라 픽쳐 추정 컴포넌트(215), 인트라 픽쳐 예측 컴포넌트(217), 모션 보상 컴포넌트(219), 모션 추정 컴포넌트(221), 스케일링 및 역변환 컴포넌트(229), 필터 제어 분석 컴포넌트(227), 루프내 필터 컴포넌트(225), 디코딩된 픽쳐 버퍼 컴포넌트(223), 및 헤더 포맷팅(header formatting) 및 컨텍스트 적응 이진 산술 코딩(context adaptive binary arithmetic coding; CABAC) 컴포넌트(231)를 포함한다. 그러한 컴포넌트는 도시되는 바와 같이 커플링된다. 도 2에서, 검은색 라인은 인코딩/디코딩될 데이터의 이동을 나타내고, 한편, 파선(dashed line)은 다른 컴포넌트의 동작을 제어하는 제어 데이터의 이동을 나타낸다. 코덱 시스템(200)의 컴포넌트 모두는 인코더에서 존재할 수 있다. 디코더는 코덱 시스템(200)의 컴포넌트의 서브세트를 포함할 수 있다. 예를 들면, 디코더는 인트라 픽쳐 예측 컴포넌트(217), 모션 보상 컴포넌트(219), 스케일링 및 역변환 컴포넌트(229), 루프내 필터 컴포넌트(225), 및 디코딩된 픽쳐 버퍼 컴포넌트(223)를 포함할 수 있다. 이들 컴포넌트가 이제 설명된다.

구획된 비디오 신호(201)는 코딩 트리에 의해 픽셀 블록으로 구획된 캡쳐된 비디오 시퀀스이다. 코딩 트리는 픽셀의 블록을 픽셀의 더 작은 블록으로 세분화하기 위해 다양한 분할 모드를 활용한다. 그 다음, 이들 블록은 더 작은 블록으로 추가로 세분화될 수 있다. 블록은 코딩 트리 상의 노드로서 지칭될 수 있다. 더 큰 부모 노드(parent node)는 더 작은 자식 노드(child node)로 분할된다. 노드가 세분되는 횟수는 노드/코딩 트리의 깊이로서 지칭된다. 분할된 블록은, 몇몇 경우에, 코딩 단위(CU)에 포함될 수 있다. 예를 들면, CU는, CU에 대한 대응하는 신택스 명령어와 함께, 루마 블록, 적색 차이 크로마(Cr) 블록(들), 및 청색 차이 크로마(Cb) 블록(들)을 포함하는 CTU의 하위 부분일 수 있다. 분할 모드는, 노드를, 활용되는 분할 모드에 따라 다양한 형상의 두 개, 세 개, 또는 네 개의 자식 노드로, 각각, 구획하기 위해 활용되는 이진 트리(binary tree; BT), 트리플 트리(triple tree; TT) 및 쿼드트리(quad tree; QT)를 포함할 수 있다. 구획된 비디오 신호(201)는 일반 코더 제어 컴포넌트(211), 변환 스케일링 및 양자화 컴포넌트(213), 인트라 픽쳐 추정 컴포넌트(215), 필터 제어 분석 컴포넌트(227), 및 압축을 위한 모션 추정 컴포넌트(221)로 포워딩된다.

일반 코더 제어 컴포넌트(211)는 애플리케이션 제약에 따라 비디오 시퀀스의 이미지를 비트스트림으로 코딩하는 것에 관련되는 결정을 내리도록 구성된다. 예를 들면, 일반 코더 제어 컴포넌트(211)는 비트레이트/비트스트림 사이즈 대 재구성 품질의 최적화를 관리한다. 그러한 결정은 저장 공간/대역폭 이용 가능성 및 이미지 해상도 요청에 기초하여 이루어질 수 있다. 일반 코더 제어 컴포넌트(211)는 버퍼 언더런 및 오버런 문제를 완화하기 위해 송신 속도를 고려하여 버퍼 활용을 또한 관리한다. 이들 문제를 관리하기 위해, 일반 코더 제어 컴포넌트(211)는 다른 컴포넌트에 의한 구획화, 예측, 및 필터링을 관리한다. 예를 들면, 일반 코더 제어 컴포넌트(211)는 해상도를 증가시키고 대역폭 사용을 증가시키기 위해 압축 복잡도를 동적으로 증가시킬 수 있거나 또는 해상도 및 대역폭 사용을 감소시키기 위해 압축 복잡도를 감소시킬 수 있다. 그러므로, 비디오 신호 재구성 품질을 비트 레이트 문제와 균형을 맞추기 위해, 일반 코더 제어 컴포넌트(211)는 코덱 시스템(200)의 다른 컴포넌트를 제어한다. 일반 코더 제어 컴포넌트(211)는 다른 컴포넌트의 동작을 제어하는 제어 데이터를 생성한다. 제어 데이터는, 디코더에서의 디코딩을 위한 신호 파라미터로 비트스트림에서 인코딩되도록, 헤더 포맷팅 및 CABAC 컴포넌트(231)로 또한 포워딩된다.

구획된 비디오 신호(201)는 인터 예측을 위해 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)로 또한 전송된다. 구획된 비디오 신호(201)의 프레임 또는 슬라이스는 다수의 비디오 블록으로 분할될 수 있다. 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는, 시간적 예측을 제공하기 위해, 하나 이상의 참조 프레임의 하나 이상의 블록에 대해 수신된 비디오 블록의 인터 예측 코딩을 수행한다. 코덱 시스템(200)은, 예를 들면, 비디오 데이터의 각각의 블록에 대한 적절한 코딩 모드를 선택하기 위해, 다수의 코딩 패스(coding pass)를 수행할 수 있다.

모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는 고도로 통합될 수 있지만, 그러나 개념적 목적을 위해 개별적으로 예시된다. 모션 추정 컴포넌트(221)에 의해 수행되는 모션 추정은, 비디오 블록에 대한 모션을 추정하는 모션 벡터를 생성하는 프로세스이다. 모션 벡터는, 예를 들면, 예측 블록에 대한 코딩된 오브젝트의 변위를 나타낼 수 있다. 예측 블록은, 픽셀 차이의 관점에서, 코딩될 블록과 밀접하게 매치하는 것으로 밝혀지는 블록이다. 예측 블록은 참조 블록으로서 또한 지칭될 수 있다. 그러한 픽셀 차이는 절대 차이의 합(sum of absolute difference; SAD), 제곱 차이의 합(sum of square difference; SSD), 또는 다른 차이 메트릭에 의해 결정될 수 있다. HEVC는 CTU, 코딩 트리 블록(CTB), 및 CU를 포함하는 여러 가지 코딩된 오브젝트를 활용한다. 예를 들면, CTU는 CTB로 분할될 수 있는데, CTB는, 그 다음, CU에서의 포함을 위해 CB로 분할될 수 있다. CU는 예측 데이터를 포함하는 예측 단위(prediction unit; PU) 및/또는 CU에 대한 변환된 잔차 데이터를 포함하는 변환 단위(transform unit; TU)로서 인코딩될 수 있다. 모션 추정 컴포넌트(221)는, 레이트 왜곡 최적화 프로세스의 일부로서 레이트 왜곡 분석을 사용하는 것에 의해 모션 벡터, PU, 및 TU를 생성한다. 예를 들면, 모션 추정 컴포넌트(221)는 현재 블록/프레임에 대한 다수의 참조 블록, 다수의 모션 벡터, 등등을 결정할 수 있고, 최상의 레이트 왜곡 특징을 갖는 참조 블록, 모션 벡터, 등등을 선택할 수 있다. 최상의 레이트 왜곡 특징은, 비디오 재구성의 품질(예를 들면, 압축에 의한 데이터 손실의 양) 및 코딩 효율성(예를 들면, 최종 인코딩의 사이즈) 둘 모두의 균형을 유지한다.

몇몇 예에서, 코덱 시스템(200)은 디코딩된 픽쳐 버퍼 컴포넌트(223)에 저장되는 참조 픽쳐의 정수 미만(sub-integer) 픽셀 포지션에 대한 값을 계산할 수 있다. 예를 들면, 비디오 코덱 시스템(200)은 참조 픽쳐의 1/4 픽셀 포지션, 1/8 픽셀 포지션, 또는 다른 분수(fractional) 픽셀 포지션의 값을 보간할 수 있다. 따라서, 모션 추정 컴포넌트(221)는 전체 픽셀 포지션 및 분수 픽셀 포지션에 대한 모션 검색을 수행할 수 있고 분수 픽셀 정밀도를 갖는 모션 벡터를 출력할 수 있다. 모션 추정 컴포넌트(221)는, PU의 포지션을 참조 픽쳐의 예측 블록의 포지션에 비교하는 것에 의해, 인터 코딩된 슬라이스에서 비디오 블록의 PU에 대한 모션 벡터를 계산한다. 모션 추정 컴포넌트(221)는 계산된 모션 벡터를 모션 데이터로서, 인코딩을 위해, 헤더 포맷팅 및 CABAC 컴포넌트(231)에 출력하고 모션을 모션 보상 컴포넌트(219)로 출력한다.

모션 보상 컴포넌트(219)에 의해 수행되는 모션 보상은 모션 추정 컴포넌트(221)에 의해 결정되는 모션 벡터에 기초하여 예측 블록을 페치하는(fetching) 것 또는 생성하는 것을 수반할 수 있다. 다시, 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)는, 몇몇 예에서, 기능적으로 통합될 수 있다. 현재 비디오 블록의 PU에 대한 모션 벡터를 수신하면, 모션 보상 컴포넌트(219)는 모션 벡터가 가리키는 예측 블록의 위치를 알아낼 수 있다. 그 다음, 코딩되고 있는 현재 비디오 블록의 픽셀 값으로부터 예측 블록의 픽셀 값을 감산하여 픽셀 차이 값을 형성하는 것에 의해 잔차 비디오 블록이 형성된다. 일반적으로, 모션 추정 컴포넌트(221)는 루마 성분에 대한 모션 추정을 수행하고, 모션 보상 컴포넌트(219)는 크로마 성분 및 루마 성분 둘 모두에 대해 루마 성분에 기초하여 계산되는 모션 벡터를 사용한다. 예측 블록 및 잔차 블록은 변환 스케일링 및 양자화 컴포넌트(213)로 포워딩된다.

구획된 비디오 신호(201)는 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)로 또한 전송된다. 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)에서와 같이, 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)는 고도로 통합될 수 있지만, 그러나 개념적 목적을 위해 별개로 예시된다. 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)는, 상기에서 설명되는 바와 같이, 프레임 사이에서 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)에 의해 수행되는 인터 예측에 대한 대안으로서, 현재 프레임의 블록에 대해 현재 블록을 인트라 예측한다. 특히, 인트라 픽쳐 추정 컴포넌트(215)는 현재 블록을 인코딩하기 위해 사용할 인트라 예측 모드를 결정한다. 몇몇 예에서, 인트라 픽쳐 추정 컴포넌트(215)는 다수의 테스트된 인트라 예측 모드로부터 현재 블록을 인코딩하기 위해 적절한 인트라 예측 모드를 선택한다. 그 다음, 선택된 인트라 예측 모드는 인코딩을 위해 헤더 포맷팅 및 CABAC 컴포넌트(231)로 포워딩된다.

예를 들면, 인트라 픽쳐 추정 컴포넌트(215)는 다양한 테스트된 인트라 예측 모드에 대한 레이트 왜곡 분석을 사용하여 레이트 왜곡 값을 계산하고, 테스트된 모드 중에서 최상의 레이트 왜곡 특징을 갖는 인트라 예측 모드를 선택한다. 레이트 왜곡 분석은, 인코딩된 블록과 인코딩된 블록을 생성하기 위해 인코딩되었던 원래의 인코딩되지 않은 블록 사이의 왜곡(또는 에러)의 양뿐만 아니라, 인코딩된 블록을 생성하기 위해 사용되는 비트레이트(예를 들면, 비트의 수)를 일반적으로 결정한다. 어떤 인트라 예측 모드가 인트라 픽쳐 추정 컴포넌트(215)는 블록에 대해 최상의 레이트 왜곡 값을 나타내는지를 결정하기 위해 다양한 인코딩된 블록에 대한 왜곡 및 레이트로부터 비율을 계산한다. 또한, 인트라 픽쳐 추정 컴포넌트(215)는 레이트 왜곡 최적화(rate-distortion optimization; RDO)에 기초한 깊이 모델링 모드(depth modeling mode; DMM)를 사용하여 깊이 맵의 깊이 블록을 코딩하도록 구성될 수 있다.

인트라 픽쳐 예측 컴포넌트(217)는, 인코더 상에서 구현될 때 인트라 픽쳐 추정 컴포넌트(215)에 의해 결정되는 선택된 인트라 예측 모드에 기초하여 예측 블록으로부터 잔차 블록을 생성할 수 있거나 또는 디코더 상에서 구현될 때 비트스트림으로부터 잔차 블록을 판독할 수 있다. 잔차 블록은, 매트릭스로서 표현되는, 예측 블록과 원래의 블록 사이의 값에서의 차이를 포함한다. 그 다음, 잔차 블록은 변환 스케일링 및 양자화 컴포넌트(213)로 포워딩된다. 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)는 루마 및 크로마 성분 둘 모두에 대해 동작할 수 있다.

변환 스케일링 및 양자화 컴포넌트(213)는 잔차 블록을 추가로 압축하도록 구성된다. 변환 스케일링 및 양자화 컴포넌트(213)는 이산 코사인 변환(discrete cosine transform; DCT), 이산 사인 변환(discrete sine transform; DST), 또는 개념적으로 유사한 변환과 같은 변환을 잔차 블록에 적용하여, 잔차 변환 계수 값을 포함하는 비디오 블록을 생성한다. 웨이블릿 변환(wavelet transform), 정수 변환(integer transform), 하위 대역 변환(sub-band transform) 또는 다른 타입의 변환이 또한 사용될 수 있다. 변환은 잔차 정보를 픽셀 값 도메인으로부터 주파수 도메인과 같은 변환 도메인으로 변환할 수 있다. 변환 스케일링 및 양자화 컴포넌트(213)는, 예를 들면, 주파수에 기초하여, 변환된 잔차 정보를 스케일링하도록 또한 구성된다. 그러한 스케일링은, 상이한 주파수 정보가 상이한 세분성(granularity)에서 양자화되도록 잔차 정보에 스케일 팩터(scale factor)를 적용하는 것을 수반하는데, 이것은 재구성된 비디오의 최종 시각적 품질에 영향을 끼칠 수 있다. 변환 스케일링 및 양자화 컴포넌트(213)는 비트 레이트를 추가로 감소시키기 위해 변환 계수를 양자화하도록 또한 구성된다. 양자화 프로세스는 계수의 일부 또는 모두와 관련되는 비트 깊이를 감소시킬 수 있다. 양자화의 정도는 양자화 파라미터를 조정하는 것에 의해 수정될 수 있다. 몇몇 예에서, 변환 스케일링 및 양자화 컴포넌트(213)는, 그 다음, 양자화된 변환 계수를 포함하는 매트릭스의 스캔을 수행할 수 있다. 양자화된 변환 계수는 비트스트림에서 인코딩되도록 헤더 포맷팅 및 CABAC 컴포넌트(231)로 포워딩된다.

스케일링 및 역변환 컴포넌트(229)는 모션 추정을 지원하기 위해 변환 스케일링 및 양자화 컴포넌트(213)의 역 동작을 적용한다. 스케일링 및 역변환 컴포넌트(229)는, 예를 들면, 다른 현재 블록에 대한 예측 블록이 될 수 있는 참조 블록으로서의 나중의 사용을 위해 잔차 블록을 픽셀 도메인에서 재구성하기 위해, 역 스케일링, 변환, 및/또는 양자화를 적용한다. 모션 추정 컴포넌트(221) 및/또는 모션 보상 컴포넌트(219)는, 나중의 블록/프레임의 모션 추정에서의 사용을 위해 대응하는 예측 블록에 잔차 블록을 다시 추가하는 것에 의해 참조 블록을 계산할 수 있다. 필터는 스케일링, 양자화, 및 변환 동안 생성되는 아티팩트를 완화하기 위해 재구성된 참조 블록에 적용된다. 그렇지 않으면, 그러한 아티팩트는, 후속하는 블록이 예측될 때, 부정확한 예측을 야기할 수 있다(그리고 추가적인 아티팩트를 생성할 수 있음).

필터 제어 분석 컴포넌트(227) 및 루프내 필터 컴포넌트(225)는 필터를 잔차 블록 및/또는 재구성된 이미지 블록에 적용한다. 예를 들면, 스케일링 및 역변환 컴포넌트(229)로부터의 변환된 잔차 블록은 인트라 픽쳐 예측 컴포넌트(217) 및/또는 모션 보상 컴포넌트(219)로부터의 대응하는 예측 블록과 결합되어 원래의 이미지 블록을 재구성할 수 있다. 그 다음 필터가 재구성된 이미지 블록에 적용될 수 있다. 몇몇 예에서, 필터는, 대신, 잔차 블록에 적용될 수 있다. 도 2의 다른 컴포넌트에서와 같이, 필터 제어 분석 컴포넌트(227) 및 루프내 필터 컴포넌트(225)는 고도로 통합되어 함께 구현될 수 있지만, 그러나 개념적 목적을 위해 별개로 묘사된다. 재구성된 참조 블록에 적용되는 필터는 특정한 공간 영역에 적용되며 그러한 필터가 적용되는 방법을 조정하기 위해 다수의 파라미터를 포함한다. 필터 제어 분석 컴포넌트(227)는 그러한 필터가 적용되어야 하는 곳을 결정하기 위해 재구성된 참조 블록을 분석하고 대응하는 파라미터를 설정한다. 그러한 데이터는 인코딩을 위한 필터 제어 데이터로서 헤더 포맷팅 및 CABAC 컴포넌트(231)로 포워딩된다. 루프내 필터 컴포넌트(225)는 필터 제어 데이터에 기초하여 그러한 필터를 적용한다. 필터는 블록화 제거 필터, 노이즈 억제 필터, SAO 필터, 및 적응적 루프 필터를 포함할 수 있다. 그러한 필터는, 예에 따라, 공간/픽셀 도메인에서 (예를 들면, 재구성된 픽셀 블록에 대해) 또는 주파수 도메인에서 적용될 수 있다.

인코더로서 동작할 때, 필터링된 재구성된 이미지 블록, 잔차 블록, 및/또는 예측 블록은, 상기에서 논의되는 바와 같이 모션 추정에서의 나중의 사용을 위해, 디코딩된 픽쳐 버퍼 컴포넌트(223)에 저장된다. 디코더로서 동작할 때, 디코딩된 픽쳐 버퍼 컴포넌트(223)는 재구성되고 필터링된 블록을 저장하고 출력 비디오 신호의 일부로서 디스플레이를 향해 포워딩한다. 디코딩된 픽쳐 버퍼 컴포넌트(223)는 예측 블록, 잔차 블록, 및/또는 재구성된 이미지 블록을 저장할 수 있는 임의의 메모리 디바이스일 수 있다.

헤더 포맷팅 및 CABAC 컴포넌트(231)는 코덱 시스템(200)의 다양한 컴포넌트로부터 데이터를 수신하고 디코더를 향한 송신을 위해 그러한 데이터를 코딩된 비트스트림에 인코딩한다. 구체적으로, 헤더 포맷팅 및 CABAC 컴포넌트(231)는, 일반적인 제어 데이터 및 필터 제어 데이터와 같은 제어 데이터를 인코딩하기 위해 다양한 헤더를 생성한다. 게다가, 인트라 예측 및 모션 데이터를 비롯한 예측 데이터뿐만 아니라, 양자화된 변환 계수 데이터 형태의 잔차 데이터가 모두 비트스트림에서 인코딩된다. 최종 비트스트림은 원래의 구획된 비디오 신호(201)를 재구성하기 위해 디코더에 의해 소망되는 모든 정보를 포함한다. 그러한 정보는 인트라 예측 모드 인덱스 테이블(코드워드 매핑 테이블로서 또한 지칭됨), 다양한 블록에 대한 인코딩 컨텍스트의 정의, 가장 가능성 있는 인트라 예측 모드의 지시, 구획 정보의 지시, 등등을 또한 포함할 수 있다. 그러한 데이터는 엔트로피 코딩을 활용하는 것에 의해 인코딩될 수 있다. 예를 들면, 정보는, 컨텍스트 적응 가변 길이 코딩(context adaptive variable length coding; CAVLC), CABAC, 신택스 기반의 컨텍스트 적응 이진 산술 코딩(syntax-based context-adaptive binary arithmetic coding; SBAC), 확률 간격 구획화 엔트로피(probability interval partitioning entropy; PIPE) 코딩, 또는 다른 엔트로피 코딩 기술을 활용하는 것에 의해 인코딩될 수 있다. 엔트로피 코딩에 후속하여, 코딩된 비트스트림은 다른 디바이스(예를 들면, 비디오 디코더)로 송신될 수 있거나 또는 나중의 송신 또는 검색을 위해 보관될(archived) 수 있다.

도 3은 예시적인 비디오 인코더(300)를 예시하는 블록도이다. 비디오 인코더(300)는 코덱 시스템(200)의 인코딩 기능을 구현하도록 및/또는 동작 방법(100)의 단계(101, 103, 105, 107, 및/또는 109)를 구현하도록 활용될 수 있다. 인코더(300)는 입력 비디오 신호를 구획하는데, 구획된 비디오 신호(201)와 실질적으로 유사한 구획된 비디오 신호(301)로 나타나게 된다. 그 다음, 구획된 비디오 신호(301)는 인코더(300)의 컴포넌트에 의해 압축되어 비트스트림으로 인코딩된다.

구체적으로, 구획된 비디오 신호(301)는 인트라 예측을 위해 인트라 픽쳐 예측 컴포넌트(317)로 포워딩된다. 인트라 픽쳐 예측 컴포넌트(317)는 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)와 실질적으로 유사할 수 있다. 구획된 비디오 신호(301)는, 디코딩된 픽쳐 버퍼 컴포넌트(323)의 참조 블록에 기초한 인터 예측을 위해 모션 보상 컴포넌트(321)로 또한 포워딩된다. 모션 보상 컴포넌트(321)는 모션 추정 컴포넌트(221) 및 모션 보상 컴포넌트(219)와 실질적으로 유사할 수 있다. 인트라 픽쳐 예측 컴포넌트(317) 및 모션 보상 컴포넌트(321)로부터의 예측 블록 및 잔차 블록은 잔차 블록의 변환 및 양자화를 위해 변환 및 양자화 컴포넌트(313)로 포워딩된다. 변환 및 양자화 컴포넌트(313)는 변환 스케일링 및 양자화 컴포넌트(213)와 실질적으로 유사할 수 있다. 변환되고 양자화된 잔차 블록 및 대응하는 예측 블록은 (관련된 제어 데이터와 함께) 비트스트림으로의 코딩을 위해 엔트로피 코딩 컴포넌트(331)로 포워딩된다. 엔트로피 코딩 컴포넌트(331)는 헤더 포맷팅 및 CABAC 컴포넌트(231)와 실질적으로 유사할 수 있다.

변환되고 양자화된 잔차 블록 및/또는 대응하는 예측 블록은, 모션 보상 컴포넌트(321)에 의한 사용을 위한 참조 블록으로의 재구성을 위해 변환 및 양자화 컴포넌트(313)로부터 역변환 및 양자화 컴포넌트(329)로 또한 포워딩된다. 역변환 및 양자화 컴포넌트(329)는 스케일링 및 역변환 컴포넌트(229)와 실질적으로 유사할 수 있다. 루프내 필터 컴포넌트(325)의 루프내 필터는, 예에 따라, 잔차 블록 및/또는 재구성된 참조 블록에도 또한 적용된다. 루프내 필터 컴포넌트(325)는 필터 제어 분석 컴포넌트(227) 및 루프내 필터 컴포넌트(225)와 실질적으로 유사할 수 있다. 루프내 필터 컴포넌트(325)는 루프내 필터 컴포넌트(225)와 관련하여 논의되는 바와 같이 다수의 필터를 포함할 수 있다. 필터링된 블록은, 그 다음, 모션 보상 컴포넌트(321)에 의한 참조 블록으로서의 사용을 위해 디코딩된 픽쳐 버퍼 컴포넌트(323)에 저장된다. 디코딩된 픽쳐 버퍼 컴포넌트(323)는 디코딩된 픽쳐 버퍼 컴포넌트(223)와 실질적으로 유사할 수 있다.

도 4는 예시적인 비디오 디코더(400)를 예시하는 블록도이다. 비디오 디코더(400)는 코덱 시스템(200)의 디코딩 기능을 구현하도록 및/또는 동작 방법(100)의 단계(111, 113, 115, 및/또는 117)를 구현하도록 활용될 수 있다. 디코더(400)는, 예를 들면 인코더(300)로부터, 비트스트림을 수신하고, 최종 사용자에 대한 디스플레이를 위해 비트스트림에 기초하여 재구성된 출력 비디오 신호를 생성한다.

비트스트림은 엔트로피 디코딩 컴포넌트(433)에 의해 수신된다. 엔트로피 디코딩 컴포넌트(433)는, CAVLC, CABAC, SBAC, PIPE 코딩, 또는 다른 엔트로피 코딩 기술과 같은 엔트로피 디코딩 스킴을 구현하도록 구성된다. 예를 들면, 엔트로피 디코딩 컴포넌트(433)는, 비트스트림에서 코드워드로서 인코딩되는 추가적인 데이터를 해석하기 위한 컨텍스트를 제공하기 위해, 헤더 정보를 활용할 수 있다. 디코딩된 정보는 비디오 신호를 디코딩하기 위해 임의의 소망되는 정보, 예컨대 일반적인 제어 데이터, 필터 제어 데이터, 구획 정보, 모션 데이터, 예측 데이터, 및 잔차 블록으로부터의 양자화된 변환 계수를 포함한다. 양자화된 변환 계수는 잔차 블록으로의 재구성을 위해 역변환 및 양자화 컴포넌트(429)로 포워딩된다. 역변환 및 양자화 컴포넌트(429)는 역변환 및 양자화 컴포넌트(329)와 유사할 수 있다.

재구성된 잔차 블록 및/또는 예측 블록은 인트라 예측 동작에 기초한 이미지 블록으로의 재구성을 위해 인트라 픽쳐 예측 컴포넌트(417)로 포워딩된다. 인트라 픽쳐 예측 컴포넌트(417)는 인트라 픽쳐 추정 컴포넌트(215) 및 인트라 픽쳐 예측 컴포넌트(217)와 유사할 수 있다. 구체적으로, 인트라 픽쳐 예측 컴포넌트(417)는 프레임에서 참조 블록을 찾기 위해 예측 모드를 활용하고 인트라 예측된 이미지 블록을 재구성하기 위해 결과에 잔차 블록을 적용한다. 재구성된 인트라 예측된 이미지 블록 및/또는 잔차 블록 및 대응하는 인터 예측 데이터는 루프 내 필터 컴포넌트(425)를 통해 디코딩된 픽쳐 버퍼 컴포넌트(423)로 포워딩되는데, 이들은 루프내 필터 컴포넌트(225) 및 디코딩된 픽쳐 버퍼 컴포넌트(223)와, 각각, 실질적으로 유사할 수 있다. 루프내 필터 컴포넌트(425)는 재구성된 이미지 블록, 잔차 블록 및/또는 예측 블록을 필터링하고, 그러한 정보는 디코딩된 픽쳐 버퍼 컴포넌트(423)에 저장된다. 디코딩된 픽쳐 버퍼 컴포넌트(423)로부터의 재구성된 이미지 블록은 인터 예측을 위해 모션 보상 컴포넌트(421)로 포워딩된다. 모션 보상 컴포넌트(421)는 모션 추정 컴포넌트(221) 및/또는 모션 보상 컴포넌트(219)와 실질적으로 유사할 수 있다. 구체적으로, 모션 보상 컴포넌트(421)는 참조 블록으로부터의 모션 벡터를 활용하여 예측 블록을 생성하고 잔차 블록을 결과에 적용하여 이미지 블록을 재구성한다. 결과적으로 나타나는 재구성된 블록은 루프내 필터 컴포넌트(425)를 통해 디코딩된 픽쳐 버퍼 컴포넌트(423)로 또한 포워딩될 수 있다. 디코딩된 픽쳐 버퍼 컴포넌트(423)는, 구획 정보를 통해 프레임으로 재구성될 수 있는 추가적인 재구성된 이미지 블록을 계속 저장한다. 그러한 프레임은 시퀀스에 또한 배치될 수 있다. 시퀀스는 재구성된 출력 비디오 신호로서 디스플레이를 향해 출력된다.

전술한 메커니즘은 정사각형/직사각형 프레임에서 제시되는 2D 비디오를 인코딩 및 디코딩하기 위해 활용될 수 있는 예시적인 머신 및/또는 프로세스이다. 그러나, PCC 비디오 데이터는 불규칙한 3D 오브젝트를 나타내기 위해 포인트를 사용한다. 다음의 메커니즘은 PCC 고유의 비디오 코딩 프로세스이다. 이들 메커니즘은, 2D 프레임이 전술한 메커니즘에 의해 인코딩/디코딩될 수 있도록 2D 정사각형/직사각형 프레임에서 3D 포인트 클라우드를 표현하기 위해 활용될 수 있다. 일반적인 예로서, 시간적으로 특정한 순간에서의 3D 포인트 클라우드는, 각각의 포인트의 포지션을 나타내는 지오메트리 프레임에 의해 설명될 수 있다. 포인트의 컬러 값 및 밝기 값은, 지오메트리 프레임에 의해 나타내어지는 바와 같이 포인트 상으로 투영되는 2D 패치로서 표현될 수 있다. 시간적으로 한 순간에 대한 패치는 상기에서 설명되는 메커니즘에 의해 인코딩/디코딩될 수 있는 정사각형/직사각형 아틀라스 프레임에 패킹된다. 패치가 아틀라스 프레임을 완전히 피복하지 않을 수 있기 때문에, 아틀라스 프레임의 어떤 영역이 패치 데이터를 포함하고 어떤 영역이 사용 가능한 비디오 데이터가 없는지를 나타내기 위해 대응하는 점유 프레임이 활용될 수 있다. 포인트에 대한 임의의 추가적인 속성은 대응하는 속성 프레임에서 코딩될 수 있다. 다음은 이들 메커니즘을 더욱 상세하게 설명한다.

도 5는 PCC 메커니즘에 따라 코딩될 수 있는 포인트 클라우드 미디어(500)의 예이다. 따라서, 포인트 클라우드 미디어(500)는, 방법(100)을 수행할 때, 코덱 시스템(200) 및/또는 인코더(300)와 같은 인코더에 의해 코딩될 수 있고, 코덱 시스템(200) 및/또는 디코더(400)와 같은 디코더에 의해 재구성될 수 있다.

도 1 내지 도 4에서 설명되는 메커니즘은 일반적으로 2D 프레임이 코딩되고 있다는 것을 가정한다. 그러나, 포인트 클라우드 미디어(500)는 시간이 지남에 따라 변하는 포인트의 클라우드이다. 구체적으로, 포인트 클라우드 및/또는 포인트 클라우드 표현으로서 또한 지칭될 수 있는 포인트 클라우드 미디어(500)는 3D 공간에서의 포인트의 그룹이다. 포인트는 샘플로서 또한 지칭될 수 있다. 각각의 포인트는 다수의 타입의 데이터와 관련될 수 있다. 예를 들면, 각각의 포인트는 포지션의 관점에서 설명될 수 있다. 포지션은 데카르트 좌표의 세트로서 설명될 수 있는 3D 공간에서의 위치이다. 게다가, 각각의 포인트는 컬러를 포함할 수 있다. 컬러는 휘도(예를 들면, 밝기) 및 색도(chrominance)(예를 들면, 컬러)의 관점에서 설명될 수 있다. 컬러는 적색(R), 녹색(G), 및 청색(B) 값 또는 루마(Y), 청색 투영(U), 및 적색 투영(V) - 각각 (R, G, B) 또는 (Y, U, V)로서 표기됨 - 의 관점에서 설명될 수 있다. 포인트는 다른 속성을 또한 포함할 수 있다. 속성은, 포인트 클라우드의 각각의 포인트와 관련될 수 있는 옵션 사항의(optional) 스칼라 또는 벡터 특성이다. 속성은, 반사율, 투명도, 표면 법선, 타임 스탬프, 재료 식별자(ID), 등등을 포함할 수 있다.

포인트 클라우드 미디어(500)의 각각의 포인트가 다수의 타입의 데이터와 관련될 수 있기 때문에, 도 1 내지 도 4에서 설명되는 메커니즘에 따라 압축을 위해 포인트 클라우드 미디어(500)를 준비하기 위해 여러 가지 지원 메커니즘이 활용된다. 예를 들면, 포인트 클라우드 미디어(500)는 프레임으로 분류될 수 있는데, 여기서 각각의 프레임은 특정한 상태 또는 시간적 순간에 대한 포인트 클라우드에 관련되는 모든 데이터를 포함한다. 그러한 만큼, 도 5는 포인트 클라우드 미디어(500)의 단일의 프레임을 묘사한다. 그 다음, 포인트 클라우드 미디어(500)는 프레임 단위 기반으로 코딩된다. 포인트 클라우드 미디어(500)는 3D 경계 박스(501)에 의해 둘러싸일 수 있다. 3D 경계 박스(501)는, 대응하는 프레임에 대한 포인트 클라우드 미디어(500)의 포인트 모두를 둘러싸도록 사이즈가 조정되는 3D 직사각형 프리즘이다. 3D 경계 박스(501)는, 직각으로 배치되는 여섯 개의 직사각형 면을 갖는 직육면체 솔리드로서 정의되는 볼륨으로서 공식적으로서 정의될 수 있다. 포인트 클라우드 미디어(500)가 서로소(disjoint) 세트를 포함하는 경우, 다수의 3D 경계 박스(501)가 활용될 수 있다는 것을 유의해야 한다. 예를 들면, 포인트 클라우드 미디어(500)는 연결되지 않은 두 개의 도면을 묘사할 수 있는데, 이 경우 3D 경계 박스(501)는 각각의 도면 주위에서 배치될 것이다. 3D 경계 박스(501)의 포인트는 하기에서 설명되는 바와 같이 프로세싱된다.

도 6은 포인트 클라우드(600)로부터 생성되는 패치(603)의 예이다. 포인트 클라우드(600)는 포인트 클라우드 미디어(500)의 단일의 프레임이다. 게다가, 포인트 클라우드(600)는 3D 경계 박스(501)와 실질적으로 유사한 3D 경계 박스(601)에 의해 둘러싸인다. 따라서, 포인트 클라우드 미디어(600)는, 방법(100)을 수행할 때, 코덱 시스템(200) 및/또는 인코더(300)와 같은 인코더에 의해 코딩될 수 있고, 코덱 시스템(200) 및/또는 디코더(400)와 같은 디코더에 의해 재구성될 수 있다.

3D 경계 박스(601)는 여섯 개의 면을 포함하고, 그러므로, 3D 경계 박스(601)의 면(예를 들면, 상, 하, 좌, 우, 전, 및 후)에 각각 배치되는 여섯 개의 2D 직사각형 프레임(602)을 포함한다. 포인트 클라우드(600)는 포인트 클라우드(600)를 대응하는 2D 직사각형 프레임(602) 상으로 투영하는 것에 의해 3D 데이터로부터 2D 데이터로 변환될 수 있다. 이것은 패치(603)의 생성을 초래한다. 2D 직사각형 프레임(602)은 (예를 들면, 3D 경계 박스(601)의) 2D 경계 박스로서 또한 지칭될 수 있다는 것을 유의해야 한다. 패치(603)는 3D 포인트 클라우드의 2D 표현인데, 여기서 패치(603)는 대응하는 2D 직사각형 프레임(602)에서 볼 수 있는 포인트 클라우드(600)의 표현을 포함한다. 패치(603)는 볼륨 정보와 관련되는 아틀라스 내의 2D 직사각형 영역으로서 공식적으로서 정의될 수 있다. 2D 직사각형 프레임(602)으로부터의 포인트 클라우드(600)의 표현은 다수의 서로소 성분을 포함할 수 있다는 것을 유의해야 한다. 그러한 만큼, 2D 직사각형 프레임(602)은 복수의 패치(603)를 포함할 수 있다. 따라서, 포인트 클라우드(600)는 여섯 개보다 더 많은 패치(603)에 의해 표현될 수 있다. 패치(603)는 또한 아틀라스, 아틀라스 데이터, 아틀라스 정보, 및/또는 아틀라스 성분으로서 또한 지칭될 수 있다. 3D 데이터를 2D 포맷으로 변환하는 것에 의해, 포인트 클라우드(600)의 패치(603)는 인터 예측 및/또는 인트라 예측과 같은 비디오 코딩 메커니즘에 따라 코딩될 수 있다.

도 7a 내지 도 7c는 도 6에서 설명되는 바와 같이 2D 정보로 변환된 3D 포인트 클라우드를 인코딩하기 위한 메커니즘을 예시한다. 구체적으로, 도 7a는 패치(603)와 같은 패치의 세트와 관련되는 예시적인 점유 프레임(710)을 예시한다. 점유 프레임(710)은 이진 형태로 코딩되는 값을 갖는 점유(713 및 715)를 포함한다. 점유(713 및 715)는 아틀라스 샘플이 3D 공간의 관련된 샘플에 대응하는지의 여부를 나타내는 값이다. 예를 들면, 점유(715)로서 묘사되는 제로의 점유 값은, 경계 박스(601)의 일부가 패치(603) 중 하나에 의해 점유되지 않는다는 것을 나타낸다. 제로에 의해 표현되는 경계 박스(601)의 그들 부분은 볼륨 표현(예를 들면, 포인트 클라우드(600))의 재구성에 참가하지 않는다. 대조적으로, 점유(713)로서 묘사되는 1의 점유 값은, 경계 박스(601)의 일부가 패치(603) 중 하나에 의해 점유된다는 것을 나타낸다. 1에 의해 표현되는 경계 박스(601)의 그들 부분은 볼륨 표현(예를 들면, 포인트 클라우드(600))의 재구성에 참가한다. 점유 프레임(710)은, 2D 어레이를 구성하고 단일의 아틀라스 프레임에 대한 전체 점유 정보를 나타내는 점유 값의 콜렉션으로서 공식적으로서 정의될 수 있다. 따라서, 점유 프레임(710)은, 아틀라스의 각각의 샘플 포지션에 대해, 그 포지션이 포인트 클라우드 표현의 유효한 3D 포인트에 대응하는지의 여부를 나타낼 수 있다.

3D 정보를 2D 평면 상으로 투영하는 것에 의해 생성되는 다양한 패치는 직사각형(또는 정사각형) 비디오 프레임으로 패킹될 수 있다. 이러한 접근법은, AVC, HEVC 및 VVC와 같은 다양한 비디오 코덱이 그러한 비디오 프레임을 코딩하도록 사전 구성되기 때문에, 유리할 수 있다. 그러한 만큼, PCC 코덱은, 패치를 코딩하기 위해, 다른 비디오 코덱을 활용할 수 있다. 도 7a에서 도시되는 바와 같이, 패치는 프레임에 패킹될 수 있다. 패치는 임의의 알고리즘에 의해 패킹될 수 있다. 예를 들면, 패치는 사이즈에 기초하여 프레임에 패킹될 수 있다. 특정한 예에서, 패치는 가장 큰 것부터 가장 작은 것까지 포함된다. 가장 큰 패치는 임의의 개방된 공간에서 먼저 배치될 수 있는데, 일단 사이즈 임계치가 교차되면, 더 작은 패치가 갭을 채운다. 도 7a에서 도시되는 바와 같이, 그러한 패킹 스킴은 패치 데이터를 포함하지 않는 빈 공간을 초래한다. 빈 공간을 인코딩하는 것을 방지하기 위해, 점유 프레임(710)이 활용된다. 점유 프레임(710)은 시간적으로 특정한 순간에 포인트 클라우드에 대한 모든 점유 데이터를 포함한다. 구체적으로, 점유 프레임(710)은 하나 이상의 점유 값(점유 데이터, 점유 정보, 및/또는 점유 성분으로서 또한 공지되어 있음)을 포함한다. 점유(713 및/또는 715)는, 아틀라스(733)(패치의 그룹)에 대응하는 2D 어레이로서 구현될 수 있는데, 그들의 값은, 아틀라스(733)의 각각의 샘플 포지션에 대해, 그 포지션이 포인트 클라우드의 유효한 3D 포인트에 대응하는지의 여부를 나타낸다. 도 7a에서 도시되는 바와 같이, 점유 프레임(710)은 점유(713)로서 묘사되는 유효 데이터의 영역을 포함한다. 유효한 데이터의 영역은, 아틀라스(733)/패치 데이터가 점유 프레임(710)의 대응하는 위치에서 존재한다는 것을 나타낸다. 점유 프레임(710)은 점유(715)로서 묘사되는 무효 데이터의 영역을 또한 포함한다. 무효 데이터의 영역은, 아틀라스(733)/패치 데이터가 점유 프레임(710)의 대응하는 위치에서 존재하지 않는다는 것을 나타낸다.

도 7b는 패치(603)와 같은 패치의 세트와 관련되는 예시적인 지오메트리 프레임(720)을 예시한다. 지오메트리 맵으로서 또한 공지되어 있는 지오메트리 프레임(720)은 패치(603) 각각의 윤곽(contour) 또는 지형(topography)을 제공하거나 또는 묘사한다. 구체적으로, 지오메트리 프레임(720)은, 패치(603)의 각각의 포인트가 경계 박스(601)의 평면의 표면(예를 들면, 2D 직사각형 프레임(602))으로부터 떨어져 있는 거리를 나타낸다. 지오메트리 프레임(720)은 지오메트리(723)를 포함한다. 지오메트리(723)은 볼륨 프레임과 관련되는 데카르트 좌표의 세트로서 정의될 수 있다. 볼륨 프레임은 데카르트 좌표에 의해 명시되는 3D 포인트의 세트 및 특정한 시간 인스턴스에서의 제로 개 이상의 대응하는 속성의 세트이다. 따라서, 볼륨 프레임은 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및 선택적으로, 명시된 순간에 포인트 클라우드를 설명하는 하나 이상의 속성 프레임의 조합이다. 예를 들면, 지오메트리(723)는 시간적으로 대응하는 순간에 3D 경계 박스 내의 각각의 포인트의 위치를 설명할 수 있다.

상기에서 언급되는 바와 같이, 지오메트리 프레임(720)은, 시간적으로 특정한 순간에서의 포인트 클라우드에 대한 지오메트리 맵, 지오메트리 데이터, 지오메트리 정보, 및/또는 지오메트리 성분으로서 또한 공지되어 있는 지오메트리(723)를 포함한다. 지오메트리(723)는, 각각의 패치와 관련되는 지오메트리 정보의 집성을 통해 생성되는 2D 어레이로서 구현될 수 있는데, 여기서 지오메트리 정보/데이터는 포인트 클라우드 프레임과 관련되는 데카르트 좌표의 세트이다. 구체적으로, 패치는 3D 공간의 포인트로부터 모두 투영된다. 그러한 투영은 패치로부터 3D 정보를 제거하는 효과를 갖는다. 지오메트리(723)는 패치로부터 제거되는 3D 정보를 유지한다. 예를 들면, 패치의 각각의 샘플은 3D 공간의 한 포인트로부터 획득된다. 따라서, 지오메트리 프레임(720)은 각각의 패치의 각각의 샘플과 관련되는 3D 좌표를 포함할 수 있다. 그러므로, 지오메트리 프레임(720)/지오메트리(723)는 3D 포인트 클라우드를 재구성하기 위해 2D 패치를 다시 3D 공간으로 매핑/변환하도록 디코더에 의해 사용될 수 있다. 구체적으로, 디코더는, 포인트 클라우드를 재구성하기 위해, 각각의 패치 샘플을 적절한 3D 좌표 상으로 매핑할 수 있다.

도 7c는 패치(603)와 같은 패치의 세트와 관련되는 예시적인 아틀라스 프레임(730)을 예시한다. 아틀라스 프레임(730)은 경계 박스(601)의 패치(603)의 샘플을 제공하거나 또는 묘사한다. 아틀라스 프레임(730)은, 볼륨 데이터가 렌더링되는, 3D 경계 박스로서 공지되어 있는, 3D 공간의 볼륨에 대응하는 직사각형 프레임에 투영되는 이차원(2D) 경계 박스(패치 및/또는 아틀라스(733)로서 또한 공지되어 있음)의 콜렉션으로서 공식적으로 정의될 수 있다. 아틀라스 프레임(730)은, 예를 들면, 패치(603) 내의 포인트의 컬러 성분 및/또는 휘도 성분을 포함할 수 있다. 컬러 성분은 RGB 컬러 모델 또는 YUV 컬러 모델에 기초할 수 있거나, 또는 다른 공지된 컬러 모델에 기초할 수 있다. 점유 프레임(710), 지오메트리 프레임(720), 및 아틀라스 프레임(730)은 포인트 클라우드(600) 및/또는 포인트 클라우드 미디어(500)를 코딩하기 위해 활용될 수 있다. 그러한 만큼, 점유 프레임(710), 지오메트리 프레임(720), 및 아틀라스 프레임(730)은, 방법(100)을 수행할 때, 코덱 시스템(200) 및/또는 인코더(300)와 같은 인코더에 의해 코딩될 수 있고, 코덱 시스템(200) 및/또는 디코더(400)와 같은 디코더에 의해 재구성될 수 있다.

상기에서 언급되는 바와 같이, 아틀라스 프레임(730)은 시간적으로 특정한 순간에 포인트 클라우드에 대한 하나 이상의 아틀라스(733)(아틀라스 데이터, 아틀라스 정보, 아틀라스 성분, 및/또는 패치로서 또한 공지되어 있음)를 포함한다. 아틀라스(733)는 3D 공간의 3D 경계 박스에 대응하는 직사각형 프레임에 투영되는 2D 경계 박스의 콜렉션인데, 여기서 각각의 2D 경계 박스/패치는 포인트 클라우드의 서브세트를 나타낸다. 구체적으로, 아틀라스(733)는, 3D 포인트 클라우드가 도 6과 관련하여 설명되는 바와 같이 2D 공간에 투영될 때 생성되는 패치를 포함한다. 그러한 만큼, 아틀라스(733)/패치는 시간적으로 대응하는 순간에 포인트 클라우드와 관련되는 이미지 데이터(예를 들면, 컬러 및 밝기 값)를 포함한다. 아틀라스(733)는 도 7a의 점유 프레임(710) 및 도 7b의 지오메트리 프레임(720)에 대응한다. 구체적으로, 아틀라스(733)는 점유(713)에 따른 유효 데이터의 영역의 데이터를 포함하고, 점유(715)에 따른 무효 데이터의 영역의 데이터를 포함하지 않는다. 게다가, 지오메트리(723)는 아틀라스(733)의 샘플에 대한 3D 정보를 포함한다.

또한, 포인트 클라우드는 속성(속성 데이터, 속성 정보, 및/또는 속성 성분으로서 또한 공지되어 있음)을 포함할 수 있다는 것을 유의해야 한다. 그러한 속성은 속성 프레임에 포함될 수 있다. 속성은 시간적으로 특정한 순간에 포인트 클라우드의 대응하는 속성에 관한 모든 데이터를 포함할 수 있다. 속성이 광범위한 상이한 데이터를 포함할 수 있기 때문에, 속성 프레임의 예는 나타내어지지 않는다. 구체적으로, 속성은, 반사율, 표면 법선, 타임 스탬프, 재료 ID, 등등과 같은 포인트 클라우드의 각각의 포인트와 관련되는 임의의 스칼라 또는 벡터 특성일 수 있다. 게다가, 속성은 옵션 사항이며(예를 들면, 사용자 정의됨), 애플리케이션에 기초하여 변할 수 있다. 그러나, 사용되는 경우, 포인트 클라우드 속성은, 아틀라스(733), 지오메트리(723), 및 점유와 유사한 방식으로 속성 프레임에 포함될 수 있다.

따라서, 인코더는 포인트 클라우드 프레임을 아틀라스(733)의 아틀라스 프레임(730), 지오메트리(723)의 지오메트리 프레임(720), 점유(713 및 715) 값의 점유 프레임(710), 그리고, 선택적으로, 속성의 속성 프레임(일괄적으로 볼륨 프레임)으로 압축할 수 있다. 아틀라스 프레임(730), 지오메트리 프레임(720), 점유 프레임(710), 및/또는 속성 프레임은, 예를 들면, 디코더로의 송신을 위해 상이한 인코더에 의해 추가로 압축될 수 있다. 디코더는 아틀라스 프레임(730), 지오메트리 프레임(720), 점유 프레임(710), 및/또는 속성 프레임을 압축 해제할 수 있다. 그 다음, 디코더는 시간의 대응하는 순간에서의 재구성된 포인트 클라우드를 결정하기 위해 포인트 클라우드 프레임을 재구성하도록 아틀라스 프레임(730), 지오메트리 프레임(720), 점유 프레임(710), 및/또는 속성 프레임을 활용할 수 있다. 그 다음, 재구성된 포인트 클라우드 프레임은 (예를 들면, 디스플레이를 위해 및/또는 데이터 분석에서의 사용을 위해) 원래의 포인트 클라우드 시퀀스를 재구성하기 위해 순서대로 포함될 수 있다. 특정한 예로서, 아틀라스 프레임(730) 및/또는 아틀라스(733)는, 예를 들면, VVC, HEVC, 및/또는 AVC 코덱을 활용하는 것에 의해, 도 1 내지 도 4와 관련하여 설명되는 기술을 활용하는 것에 의해 인코딩 및 디코딩될 수 있다.

도 8은 대응하는 3D 경계 박스(801)를 스케일링하는 것에 의해 재구성된 포인트 클라우드를 스케일링하기 위한 예시적인 메커니즘(800)이다. 예를 들면, 포인트 클라우드 미디어(500)와 같은 포인트 클라우드는, 3D 경계 박스(501 및/또는 601)와 실질적으로 유사할 수 있는 3D 경계 박스(801)에서 재구성될 수 있다. 특정한 예로서, 패치(603)의 세트는 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및/또는 속성 프레임으로부터 디코딩될 수 있다. 패치는 포인트 클라우드를 재구성하기 위해 3D 경계 박스(801)의 포인트 상으로 투영될 수 있다. 그 다음, 3D 경계 박스(801)는 디스플레이 이전에 스케일링될 수 있다. 이것은, 3D 경계 박스(801)에 포함되는 재구성된 포인트 클라우드로 하여금 또한 스케일링되게 한다. 그러한 만큼, 메커니즘(800)은 방법(100, 1100, 및/또는 1200)을 구현할 때 활용될 수 있다. 게다가, 메커니즘(800)은, 예를 들면, 인코더에서 에러 테스팅을 위해 또는 디코더에서 디스플레이를 위해 포인트 클라우드를 재구성할 때, 코덱 시스템(200), 인코더(300), 디코더(400), 및/또는 비디오 코딩 디바이스(1000)에 의해 활용될 수 있다. 게다가, 메커니즘(800)은 V-PCC 비트스트림(900)과 같은 PCC 비트스트림에 의해 시그널링될 수 있다.

포인트 클라우드는 상기에서 설명되는 바와 같이 3D 경계 박스(801)에서 재구성된 포인트 클라우드(803)로서 재구성될 수 있다. 구체적으로, 지오메트리는 3D 경계 박스(801)에서 포인트를 배치하기 위해 사용될 수 있다. 아틀라스 프레임에서 아틀라스/패치를 위치 결정하기 위해 점유가 활용될 수 있다. 아틀라스는 디코딩되어 3D 경계 박스(801)의 포인트 상으로 투영될 수 있다. 속성 프레임으로부터의 임의의 속성이 또한 적용될 수 있다. 그러나, 많은 PCC 시스템에서의 한 가지 문제점은, 포인트 클라우드가 임의적인 사이즈로서 인코딩 및 디코딩될 수 있다는 것이다. 예를 들면, 몇몇 PCC 시스템은 모든 포인트 클라우드를 동일한 사이즈로서 인코딩할 수 있다. 이 접근법은 사용자에게 디스플레이시 클라우드를 적절하게 사이즈 조정할 것을 강제한다. 이 접근법은 증강 현실(AR) 목적에 대해 작동하지 않을 수 있다.

예를 들면, AR은 일반적으로 사용자가 비디오 레코딩 디바이스를 활용하여 실시간 비디오를 레코딩하는 것을 허용한다. 그러면, AR 시스템은 실시간 비디오 위에 사전 결정된 비디오 콘텐츠를 오버레이하고 그 결과를 사용자에게 디스플레이한다. 이것은, 사용자 환경에서 비디오 상으로 오버레이 되는 가상의, 기술적 또는 다른 생성된 시각적 콘텐츠의 인상(impression)을 생성한다. 예시적인 AR 디바이스는 스마트폰, 태블릿, 랩탑 컴퓨터, 또는 카메라 및 디스플레이 둘 모두 갖춘 다른 컴퓨팅 디바이스를 포함할 수 있다. 임의적인 사이즈의 포인트 클라우드는, AR 시스템이 실시간 비디오에 적합하도록 포인트 클라우드를 적절하게 사이즈 조정할 수 없을 수 있기 때문에, 그러한 애플리케이션에 대해 적합하지 않을 수 있다. 도시되는 예에서, 재구성되는 클라우드(803)는 인간 조각상(human figure)을 묘사한다. 한 예로서, 인간 조각상은 장면에서 상대적으로 작은 공간을 차지하는 인형으로서 또는 장면의 상당 부분을 차지하는 인간 사이즈의 조각상으로서 디스플레이될 수 있다. 재구성된 클라우드(803)를 적절하게 사이즈 조정할 것을 사용자에게 요구하는 것은, 애플리케이션을 성가시게 및/또는 사용 가능하지 않게 만들 수 있다.

본 개시는 3D 경계 박스 스케일(805) 및 3D 경계 박스 스케일(806)을 포함한다. 3D 경계 박스 스케일(805/806)은, 재구성된 클라우드(803)와 같은 오브젝트에 대해 명시될 수 있는 3D 경계 박스(801) 파라미터에 적용될 스케일을 나타내는 파라미터이다. 한 예로서, 3D 경계 박스 스케일(805)은, 3D 경계 박스(801)를, 그러므로, 포함된 재구성된 포인트 클라우드(803)를, 인형 스케일과 같은 더 작은 사이즈로 스케일링하는 값일 수 있다. 게다가, 3D 경계 박스 스케일(806)은, 3D 경계 박스(801)를, 그러므로, 포함된 재구성된 포인트 클라우드(803)를, 인간 스케일과 같은 더 큰 사이즈로 스케일링하는 값일 수 있다. 이것은, 재구성된 포인트 클라우드(803)가 실제 세계 비디오 상으로 오버레이될 수 있도록, 재구성된 포인트 클라우드(803)가 올바르게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일(805/806)은, 3D 경계 박스(801)에서의 재구성된 포인트 클라우드(803)의 샘플 밀도 및 3D 경계 박스(801)의 사이즈에 기초한 계수일 수 있다. 3D 경계 박스 스케일(805/806)은 몇몇 예에서 미터 단위로 표현될 수 있다. 예를 들면, 3D 경계 박스 스케일(805/806)은, 재구성된 포인트 클라우드(803)의 샘플 밀도 값을 3D 경계 박스(801) 사이즈로 나눈 값, 또는 그 반대의 값을 나타내는 값으로서 표현될 수 있다. 적절한 3D 경계 박스 스케일(805/806)은 재구성된 포인트 클라우드(803)의 의도된 사이즈에 기초하여 인코더에 의해 결정될 수 있다. 인코더에 의해 선택되는 3D 경계 박스 스케일(805/806)은 파라미터로서 V-PCC 비트스트림에 코딩될 수 있다. 디코더는 V-PCC 비트스트림으로부터 시그널링된 3D 경계 박스 스케일(805/806)을 획득할 수 있고, AR 컨텍스트에서 실시간 비디오와의 오버레이 및 디스플레이를 위해 재구성된 포인트 클라우드(803)를 렌더링하기 이전에 3D 경계 박스(801) 및 재구성된 포인트 클라우드(803)를 스케일링할 수 있다. 다른 예에서, 3D 경계 박스 스케일(805/806)은 또한, 다른 애플리케이션에의 사용을 위해, 예를 들면, 사이즈가 변하는 다양한 상대적 사이즈를 갖는 장면에 대한 재구성된 포인트 클라우드(803)의 임의의 디스플레이를 위해, 임의의 재구성된 포인트 클라우드(803)를 스케일링하기 위해 사용될 수 있다.

도 9는 포인트 클라우드를 스케일링함에 있어서의 사용을 위한 예시적인 V-PCC 비트스트림(900)을 예시하는 개략도이다. 예를 들면, V-PCC 비트스트림(900)은 방법(100)에 따라 디코더(400) 및/또는 코덱 시스템(200)에 의한 디코딩을 위해 인코더(300) 및/또는 코덱 시스템(200)에 의해 생성될 수 있다. 게다가, V-PCC 비트스트림(900)은, 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및/또는 속성 프레임으로서, 포인트 클라우드 미디어(500)로부터의 패치(603) 세트를 인코딩하기 위해 사용될 수 있다. 또한, V-PCC 비트스트림(900)은 디코더에서의 스케일링을 지원하기 위해 3D 경계 박스 스케일(805/806)을 인코딩할 수 있다.

V-PCC 비트스트림(900)은 일련의 V-PCC 단위(910) 및 지원용 보충 향상 정보(supplemental enhancement information; SEI) 메시지(920)를 포함한다. V-PCC 단위(910)는 디코더를 향한 송신을 위해 데이터 패킷에 배치되도록 사이즈가 조정되는 데이터 컨테이너이다. 구체적으로, V-PCC 단위(910)는 V-PCC 비디오 시퀀스의 대응하는 순간에 포인트 클라우드를 나타내는 하나 이상의 볼륨 프레임에 관련되는 V-PCC 성분을 포함한다. 구체적인 예로서, V-PCC 단위(910)는 다기능 비디오 코딩(versatile video coding; VVC) 표준에 대응하는 네트워크 추상화 레이어(network abstraction layer ; NAL) 단위로서 구성될 수 있다. NAL 단위는 패킷 사이즈의 데이터 컨테이너이다. 예를 들면, 단일의 NAL 단위는 일반적으로 네트워크 송신을 허용하도록 사이즈가 조정된다. NAL 단위는 NAL 단위 타입을 나타내는 헤더 및 관련된 데이터를 포함하는 페이로드를 포함할 수 있다. V-PCC 단위(910)는 V-PCC 단위 페이로드(914) 및 V-PCC 단위 헤더(912)를 포함한다. V-PCC 단위 페이로드(914)는 볼륨 프레임에 관련되는 대응하는 타입의 비디오 데이터를 포함한다. V-PCC 단위 헤더(912)는 V-PCC 단위 페이로드(914)에 포함되는 데이터의 타입을 나타내는 헤더이다.

V-PCC 단위 페이로드(914)는, 예에 따라, V-PCC 파라미터 세트(911), 아틀라스 프레임(913), 점유 프레임(915), 지오메트리 프레임(917), 및/또는 속성 프레임(919)을 포함할 수 있다. V-PCC 파라미터 세트(911)는 하나 이상의 대응하는 볼륨 프레임을 코딩하기 위해 사용되는 설정을 설명하는 파라미터의 그룹이다. 한 예로서, V-PCC 파라미터 세트(911)는 아틀라스 시퀀스 파라미터 세트(sequence parameter set; SPS)(921)를 포함할 수 있다. 아틀라스 SPS(921)는 하나 이상의 전체 코딩된 아틀라스 시퀀스에 적용되는 신택스 엘리먼트를 포함하는 신택스 구조이다. V-PCC 파라미터 세트(911)는 아틀라스 프레임 파라미터 세트, 비디오 기반의 시각적 볼륨 코딩(video-based visual volumetric coding; V3C) 파라미터 세트, 등등과 같은 다른 파라미터 세트를 또한 포함할 수 있다. 파라미터 세트 사이의 주요 차이점은, 포함된 파라미터가 V-PCC에 비디오 레벨(예를 들면, V3C 파라미터 세트)에서 관련되는지, 시퀀스 레벨(예를 들면, 아틀라스 SPS)에서 관련되는지, 및/또는 프레임 레벨(예를 들면, 아틀라스 프레임 파라미터 세트). 특정한 목적을 위해 다른 파라미터 세트가 또한 활용될 수 있고, 전술한 내용은 망라하는 목록으로 의도되는 것은 아니다.

아틀라스 프레임(913)은, 볼륨 데이터가 렌더링되는, 3D 경계 박스로서 공지되어 있는, 3D 공간의 볼륨에 대응하는 직사각형 프레임에 투영되는 2D 경계 박스/패치/아틀라스의 콜렉션이다. 아틀라스 프레임(913)은 아틀라스 프레임(730)과 실질적으로 유사할 수 있다. 점유 프레임(915)은 2D 어레이를 구성하는 점유 값의 콜렉션이며 단일의 아틀라스 프레임에 대한 전체 점유 정보를 나타낸다. 점유는 아틀라스 샘플이 3D 공간의 관련된 샘플에 대응하는지의 여부를 나타내는 값이다. 점유 프레임(915)은 점유 프레임(710)과 실질적으로 유사할 수 있다. 지오메트리 맵으로서 또한 공지되어 있는 지오메트리 프레임(917)은 특정한 깊이에서 투영되는 지오메트리 패치 정보를 포함하는 프레임이다. 지오메트리는 볼륨 프레임과 관련되는 데카르트 좌표의 세트이다. 지오메트리 프레임(917)은 지오메트리 프레임(720)과 실질적으로 유사할 수 있다. 속성 프레임(919)은, 선택적으로, 컬러, 반사율, 표면 법선, 타임 스탬프, 재료 식별자(ID), 등등과 같은 포인트 클라우드의 볼륨 프레임의 각각의 포인트와 관련되는 스칼라 또는 벡터 특성을 포함하는 프레임이다. 볼륨 프레임은 데카르트 좌표에 의해 명시되는 3D 포인트의 세트 및 특정한 시간 인스턴스에서의 제로 개 이상의 대응하는 속성의 세트이다. 포인트 클라우드의 비디오는 일련의 볼륨 프레임을 포함한다. 그러한 만큼, V-PCC 파라미터 세트(911)는, 하나 이상의 볼륨 프레임이 디코딩되어야 하는 방법을 나타내는 파라미터를 포함하고, 아틀라스 프레임(913), 점유 프레임(915), 지오메트리 프레임(917), 및 속성 프레임(919)은 볼륨 프레임을 재구성하기 위한 비디오 데이터를 포함한다.

V-PCC 비트스트림(900)은 다양한 SEI 메시지(920)를 또한 포함한다. SEI 메시지는, 디코딩된 픽쳐의 샘플의 값을 결정하기 위해 디코딩 프로세스에 의해 필요로 되지 않는 정보를 전달하는 명시된 의미론(semantics)을 갖는 신택스 구조이다. 따라서, V-PCC 단위(910)을 디코딩하는 것에 직접적으로 관련되지 않는 데이터를 전달하기 위해 SEI 메시지가 활용될 수 있다. 도시되는 예에서, V-PCC 비트스트림(900)은 장면 오브젝트 정보(scene object information; SOI) SEI 메시지(923)를 포함한다. 특정한 목적을 위해 다른 SEI 메시지가 또한 활용될 수 있다.

SOI SEI 메시지(923)는, 볼륨 장면에서 존재할 수 있는 오브젝트의 세트를 정의하고, 선택적으로, 이들 오브젝트에 상이한 특성을 할당하는 SEI 메시지이다. 그 다음, 이들 오브젝트는, 패치 정보 및 볼륨 직사각형 정보 SEI 메시지를 사용하여 정의될 수 있는 2D 볼륨 직사각형 및 패치를 비롯한, 상이한 타입의 정보와 잠재적으로 관련될 수 있다.

상기에서 언급되는 바와 같이, 몇몇 PCC 시스템은 실제 세계 측정치에 기초하여 재구성된 포인트 클라우드의 사이즈를 조정하기에 충분한 데이터를 포함하지 않는다. V-PCC 비트스트림(900)은 이들 제한을 극복하기에 충분한 파라미터를 포함한다. 예를 들면, 아틀라스 SPS(921)는 볼륨 사용 가능성 정보(volumetric usability information; VUI) 파라미터를 포함할 수 있다. 구체적으로, 아틀라스 SPS(921)는 미터 플래그(vui_unit_in_metres_flag)(933)에서 VUI 단위를 포함할 수 있다. 플래그는 관련된 기능 또는 프로세스에 대한 데이터를 시그널링하는 값이다. vui_unit_in_metres_flag(933)는, 포인트 클라우드에 대한 좌표 데이터가 미터 단위로 표현되는지의 여부를 나타내는 플래그이다. 특정한 예에서, vui_unit_in_metres_flag(933)는, 1과 동일한 경우, 실제 세계 좌표 정보가 미터 단위로 표현된다는 것을 명시한다. 게다가, vui_unit_in_metres_flag(933)는, 제로와 동일한 경우, 세계 좌표(world coordinate)는 단위가 없다는 것을 명시한다.

게다가, SOI SEI 메시지(923)는, SOI 3D 경계 박스 스케일 log2(soi_3d_bounding_box_scale_log2)(931)로서 표기될 수 있는 3D 경계 박스 스케일을 포함할 수 있다. soi_3d_bounding_box_scale_log2(931)는, 오브젝트에 대해 명시될 수 있는 3D 경계 박스 파라미터에 적용될 스케일을 나타내는 파라미터이다. 예를 들면, 포인트 클라우드의 볼륨 프레임은 아틀라스 프레임(913), 점유 프레임(915), 지오메트리 프레임(917), 및/또는 속성 프레임(919)으로부터의 데이터를 사용하여 3D 경계 박스 안으로 재구성될 수 있다. 이것은, 데카르트 좌표 시스템과 같은 로컬 좌표 시스템에 의해 설명되는 임의적인 단위가 없는 사이즈를 갖는 하나 이상의 포인트 클라우드를 초래한다. 그 다음, soi_3d_bounding_box_scale_log2(931)로부터의 스케일은 변환으로서 적용될 수 있다. 예를 들면, soi_3d_bounding_box_scale_log2(931)는, 로컬 좌표 시스템을, 오브젝트를 실제 세계 사이즈에서 설명하는 최종 타겟 3D 좌표 시스템으로 변환하기 위해 적용될 수 있다. 이것은 (예를 들면, 디코더에서 대응하는 애플리케이션에 의한 상당한 추가적인 프로세싱 없이 및/또는 디코더에서 사용자 개입 없이) 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이될 수 있도록 재구성된 포인트 클라우드가 올바르게 사이즈 조정되는 것을 허용한다. soi_3d_bounding_box_scale_log2(931)는 3D 경계 박스 내의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수일 수 있다. 예를 들면, soi_3d_bounding_box_scale_log2(931)는 포인트 클라우드 프레임에서의 공간 단위의 개수 및 3D 경계 박스에서 공간 주파수에 기초하여 정의되는 스텝 사이즈 값을 상관시킬 수 있다. 구체적인 예로서, soi_3d_bounding_box_scale_log2(931)는, 포인트 클라우드 프레임에서의 공간 단위의 개수에 의해 나누어지는 소망되는 공간 주파수의 몫과 동일한 스텝 사이즈(예를 들면, 미터 단위) 및 스텝의 개수를 나타낼 수 있다. 또 다른 예로서, 포인트 클라우드 프레임 신호의 공간 레이트가 1 m^-1일 때, 공간 단위의 개수는 일천개와 동일할 수 있고, 공간 주파수는 일백만과 동일할 수 있는데, 이것은 1 밀리미터의 스텝 사이즈를 초래한다.

SOI SEI 메시지(923)는 SOI 3D 경계 박스 존재 플래그(soi_3d_bounding_box_present_flag)(932)를 또한 포함할 수 있다. soi_3d_bounding_box_present_flag(932)는, soi_3d_bounding_box_scale_log2(931)가 SOI SEI 메시지(923)에서 포함되는지의 여부를 나타내도록 설정될 수 있다. 예를 들면, soi_3d_bounding_box_present_flag(932)는, 3D 경계 박스 정보가 현재의 장면 오브젝트 정보 SEI 메시지에서 존재한다는 것을 나타내기 위해 1과 동일하게 설정될 수 있다. 게다가, soi_3d_bounding_box_present_flag(932)는, 3D 경계 박스 정보가 존재하지 않는다는 것을 나타내기 위해, 제로와 동일하게 설정될 수 있다. 그러한 만큼, 디코더는 3D 경계 박스에서 포인트 클라우드를 재구성할 수 있고, soi_3d_bounding_box_scale_log2(931)가 존재한다는 것을 결정하기 위해 soi_3d_bounding_box_present_flag(932)를 체크할 수 있고, soi_3d_bounding_box_scale_log2(931)로부터 파라미터를 획득할 수 있고, 3D 경계 박스 및 재구성된 포인트 클라우드를 실제 세계 사이즈로, 예를 들면, 미터의 단위로 스케일링할 수 있다. 그 다음, 디코더에 있는 렌더러는 스크린 상에서의 디스플레이를 위해 3D 클라우드를 2D 관점(perspective)으로 변환하는 것에 의해 스케일링된 포인트 클라우드를 렌더링할 수 있고, 렌더링된 포인트 클라우드를 레코딩된/실시간/실제 세계 비디오 상으로 오버레이할 수 있고, 그 다음, 결합된 비디오 및 포인트 클라우드 표현을 AR 비디오로서 디스플레이할 수 있다. 그러므로, 본 예는 AR 지원을 생성하는 것에 의해 인코더와 디코더 둘 모두에서 기능성을 증가시킨다. 게다가, 본 개시는 코딩 효율성을 증가시키기 위한 메커니즘을 지원하고, 그러므로, 인코더 및/또는 디코더에서 프로세서, 메모리, 및/또는 네트워크 리소스 사용량의 감소를 지원한다.

이제, 전술한 정보의 특정한 구현예가 본원의 하기에서 더욱 상세하게 설명된다. 포인트 클라우드는, 엔터테인먼트 산업, 지능형 자동차 내비게이션, 지리 공간 검사, 실제 세계 오브젝트의 3D 모델링, 시각화, 등등을 포함하는 아주 다양한 애플리케이션의 필수적인 부분일 수 있다. 포인트 클라우드의 불균일한 샘플링 지오메트리를 고려하면, 그러한 데이터의 저장 및 송신을 위한 간결한 표현의 생성이 유리할 수 있다. 다른 3D 프리젠테이션과 비교하여, 불규칙한 포인트 클라우드는 더 일반적일 수 있고 더 넓은 범위의 센서 및 데이터 획득 전략에 대해 적용 가능할 수 있다. 예를 들면, 가상 현실 세계의 3D 프리젠테이션 또는 텔레프레즌스(telepresence) 환경에서의 원격 렌더링의 경우, 실시간 지시 및 가상 인물의 렌더링은 밀집된 포인트 클라우드 데이터 세트로서 프로세싱될 수 있다. 이러한 타입의 콘텐츠는, 몰입형 6자유도, 동적 증강/가상 현실 오브젝트, 문화 유산, 그래픽 정보 시스템 매핑, 컴퓨터 지원 설계 및 제도, 자율 내비게이션 등등으로서 사용될 수 있다.

동적 포인트 클라우드 시퀀스는 포인트 클라우드 프레임의 시퀀스를 나타낸다. V-PCC 코덱 솔루션은, 3D 경계 박스(Patch3dPosX, Patch3dPosY, Patch3dPosMinZ 및 법선 축 지시(normal axis indication) - PatchAxisZ)에 의해 표현되는 세트 3D 패치로의 3D 포인트 클라우드 데이터의 분할, 및 2D 경계 박스(Patch2dPosX, Patch2dPosY, Patch2dSizeX, Patch2dSizeY)를 갖는 2D 투영 패치의 세트를 획득하기 위한 평면 상으로의 후속하는 정투영에 기초한다. 그러한 만큼, V-PCC는 3D 경계 박스 정보 및 2d 경계 박스 정보의 조합을 활용한다.

따라서, 포인트 클라우드 프레임의 3D 포인트의 세트는 반복되고, 평활한 연속적인 표면 기준의 정의에 기초하여 3D 패치로 분할되며, 경계 박스 면 중의 면 상으로 투영되어 2D 패치를 형성한다. 패치의 콜렉션은 패치 타일 그룹을 생성하는데, 여기서 패치 타일 그룹은 주어진 포인트 클라우드 프레임에 대한 아틀라스 데이터에서 결합된다. 아틀라스 데이터의 각각의 엘리먼트는 패치로서 지칭될 수 있고, 특정한 그리고 고유의 인덱스를 가지며, 3D 포인트 클라우드 프레임 내의 고유의 3D 경계 박스에 대응한다. 또한, 포인트 클라우드 프레임의 패치가 참조 포인트 클라우드 프레임에서 대응하는 참조 패치를 갖는 경우, 참조 패치 타일 그룹에서의 참조 패치의 인덱스는 비트스트림에서 전송되어야 한다.

포인트 클라우드 시계열을 설명하는 V-PCC 단위 페이로드의 표현은 점유 비디오 데이터 프레임(2D 프레임), 속성 비디오 데이터 프레임(2x 2D 프레임: 근거리 및 원거리 레이어), 지오메트리 비디오 데이터 프레임(2x 2D 프레임: 근거리 및 원거리 레이어), 및/또는 아틀라스 데이터를 포함할 수 있다. 아틀라스 데이터는 패치(T(i,0)~T(i,m))의 1x 세트일 수 있고, V-PCC 단위 페이로드의 점유, 속성, 및 지오메트리 성분으로부터 포인트 클라우드 프레임을 재구성하기 위한 정보를 포함할 수 있는데, 여기서 i는 3D PCC 프레임에 대응하는 아틀라스 데이터 인덱스이고, i m+1은 3d 포인트 클라우드 프레임(i)에 대해 생성되는 3D 패치의 개수이고, T(i,j)는 패치로서 지칭된다.

패치는 현재의 데이터 단위로부터 참조 프레임/데이터 단위를 참조하여 예측될 수 있다. 근거리 레이어와 원거리 레이어 사이의 예측은 동일한 V-PCC 프레임 내에서만 허용될 수 있다. 포인트 클라우드 프레임 내의 대응하는 3D 경계 박스로부터 하나의 단일의 2D 패치를 획득하는 프로세스는 다음과 같다. 3D 포인트 클라우드 프레임은, 3D 공간에서 경계 박스에 의해 정의되는 3d 정보를 나타내는 독립적인 3D 패치로 분해된다. 포인트 클라우드에 대한 3D 경계 박스의 면 중 하나로서의 투영 평면이 각각의 3D 패치에 대해 정의된다. 예를 들면, 투영 평면을 선택하기 위한 기준은 투영된 3D 패치의 면적이 모든 후보 중에서 최대이다는 것일 수 있다. 패치에 대한 법선 축(PatchAxisZ)은 투영 평면에 직교하도록 정의될 수 있다. 우측 3d 좌표 시스템을 생성하기 위해, 접선 및 이중 접선(bitangent) 축이 정의될 수 있다. 3D 패치의 3D 위치를 설명하는 Patch3dPosX, Patch3dPosY, Patch3dPosMinZ, 패치의 2D 투영의 2D 좌표를 설명하는 Patch2dPosX, Patch2dPosY, Patch2dSizeX, Patch2dSizeY로서 인덱스(patchIdx)를 갖는 패치 데이터 프레임 엘리먼트에 대한 대응하는 값은 아틀라스 데이터 V-PCC 단위의 대응하는 엘리먼트에 저장될 수 있다.

UV 매핑은 2D 투영을 텍스쳐 매핑을 위한 3D 패치 표면으로 변환하는 3D 모델링 프로세스이다. 문자 U 및 V는 2D 투영의 축을 나타낸다. 문자 X, Y 및 Z는 3d 패치 경계 박스의 3d 좌표를 나타낸다.

볼륨 사용 가능성 정보(VUI)는 실제 세계에서의 포인트 클라우드 렌더링에 관련되는 양태를 정의하기 위해 사용될 수 있다. 예를 들면, 그러한 정보는 프레임의 지속 기간을 결정할 시간적 샘플링 레이트를 제공할 수 있다. 몰입형 애플리케이션에는, 포인트 클라우드가 실제 물리적 오브젝트를 나타내고 실제 세계에서 렌더링되어야 하는 일반적인 사용 사례가 있다. 그러나, 몇몇 V-PCC 시스템은 V-PCC 비트스트림에서 실제 세계에서의 샘플(3차원 픽셀)의 물리적 치수를 나타내는 정보를 활용하지 않는다.

V-PCC 비트스트림에서 스케일링 정보를 제공하기 위해, 포인트 클라우드 프레임 샘플에 대한 스케일링을 나타내는 VUI 파라미터가 다음의 포맷으로 도입된다. 블록은 별개의 포인트 클라우드 프레임을 나타내는 3차원 그리드의 단일의 점유된 샘플의 물리적 표현을 정의한다. 블록 물리적 치수는 스텝 사이즈로서 표현된다:

SizeStep = vui_num_units_in_block ÷ vui_block_scale

이 식에서 정의되는 파라미터는 다음과 같이 대응하는 변경을 가지고 VUI 신택스 구조에서 전달될 수 있다.

예를 들면, 이들 엘리먼트의 의미론은 다음과 같을 수 있다. vui_scaling_info_present_flag는, 1과 동일한 경우, vui_num_units_in_block 및 vui_block_scale이 vui_parameters() 신택스 구조에서 존재한다는 것을 명시한다. vui_scaling_info_present_flag는, 제로와 동일한 경우, vui_num_units_in_block 및 vui_block_scale이 vui_parameters() 신택스 구조에서 존재하지 않는다는 것을 명시한다. vui_scaling_info_present_flag는, 비트스트림에서 존재하지 않는 경우, 제로와 동일한 것으로 추론될 수 있다. vui_num_units_in_block은, 사이즈 스텝 카운터의 1 증분(사이즈 스텝으로 칭해짐)에 대응하는 공간 주파수 vui_time_scale m^-1에서 동작하는 사이즈의 공간 단위의 개수이다. vui_num_units_in_block은 제로보다 더 커야 한다. m의 단위의 사이즈 스텝은 vui_block_scale에 의해 나누어지는 vui_num_units_in_block의 몫과 동일하다. 예를 들면, 포인트 클라우드 프레임 신호의 공간적 레이트가 1 m^-1인 경우, vui_time_scale은 1,000과 동일하고 vui_num_units_in_block은 1,000,000과 동일하고, 결과적으로, 사이즈 스텝은 0.001 m 또는 1 mm일 수 있다. vui_block_scale은 하나의 포인트 클라우드 프레임에서 통과되는 공간 단위의 개수이다. 예를 들면, 1 m^-1의 공간 주파수를 사용하여 거리를 측정하는 공간 좌표 시스템은 1의 vui_block_scale을 갖는다. vui_block_scale의 값은 제로보다 더 커야 한다.

3D 공간에서 샘플 물리적 치수를 전달하는 VUI 파라미터는 비트스트림에 도입되어 실제 장면에서 증강된 오브젝트의 거의 즉각적이고 정확한 배치를 허용한다. 현존하는 솔루션은 그러한 정보를 제공하지 않는다. 그렇지 않으면, 콘텐츠 타입 및 애플리케이션에 기초하여 스케일링 정보가 유도될 수 있지만, 그러나, 스케일링의 결과는 정확하지 않다. 그러한 만큼, 실제 세계에서 포인트 클라우드 샘플의 스케일링 정보를 나타내는 VUI 파라미터가 추가된다. 블록 사이즈는 블록당 단위(num_units_in_block) 및 정수 형태로 표현되는 스케일 계수의 유연한 범위를 허용하는 스케일링 계수(vui_block_scale)의 형태로 표현된다. 게다가, 추가적인 VUI 파라미터 플래그는 포인트 클라우드 블록에 대한 스케일링 파라미터를 인에이블 또는 디스에이블한다. 스케일링 파라미터가 포인트 클라우드에서 존재하지 않으면, 블록 사이즈는 1 밀리미터(mm)인 것으로 추론된다.

도 10은 예시적인 비디오 코딩 디바이스(1000)의 개략도이다. 비디오 코딩 디바이스(1000)는 본원에서 설명되는 바와 같이 개시된 예/실시형태를 구현하기에 적합하다. 비디오 코딩 디바이스(1000)는, 다운스트림 포트(1020), 업스트림 포트(1050), 및/또는 네트워크를 통해 데이터 업스트림 및/또는 다운스트림을 통신하기 위한 송신기 및/또는 수신기를 포함하는 트랜스시버 유닛(Tx/Rx)(1010)을 포함한다. 비디오 코딩 디바이스(1000)는, 데이터를 프로세싱하기 위한 로직 유닛 및/또는 중앙 프로세싱 유닛(central processing unit; CPU) 및 데이터를 저장하기 위한 메모리(1032)를 포함하는 프로세서(1030)를 또한 포함한다. 비디오 코딩 디바이스(1000)는 전기, 광학 대 전기(optical-to-electrical; OE) 컴포넌트, 전기 대 광학(electrical-to-optical; EO) 컴포넌트, 및/또는 전기, 광학, 또는 무선 통신 네트워크를 통한 데이터의 통신을 위한 업스트림 포트(1050) 및/또는 다운스트림 포트(1020)에 커플링되는 무선 통신 컴포넌트를 또한 포함할 수 있다. 비디오 코딩 디바이스(1000)는 사용자에게 그리고 사용자로부터 데이터를 전달하기 위한 입력 및/또는 출력(I/O) 디바이스(1060)를 또한 포함할 수 있다. I/O 디바이스(1060)는 비디오 데이터를 디스플레이하기 위한 디스플레이, 오디오 데이터를 출력하기 위한 스피커, 등등과 같은 출력 디바이스를 포함할 수 있다. I/O 디바이스(1060)는, 키보드, 마우스, 트랙볼, 등등과 같은 입력 디바이스, 및/또는 그러한 출력 디바이스와 상호 작용하기 위한 대응하는 인터페이스를 또한 포함할 수 있다. 비디오 코딩 디바이스(1000)는, 비디오 데이터를 프로세싱하도록 구성되는 특수 프로세서인 그래픽 프로세싱 유닛(GPU)(1033)를 또한 포함할 수 있다. GPU(1033)는 내부 메모리를 포함할 수 있고 및/또는 CPU 메모리로부터 직접적으로 유래하는 데이터를 프로세싱할 수 있다.

프로세서(1030)는 하드웨어 및 소프트웨어에 의해 구현된다. 프로세서(1030)는 하나 이상의 CPU 칩으로서, 코어로서(예를 들면, 멀티 코어 프로세서), 필드 프로그래머블 게이트 어레이(field-programmable gate array; FPGA)로서, 주문형 집적 회로(application specific integrated circuit; ASIC)로서, 그리고 디지털 신호 프로세서(digital signal processor; DSP)로서 구현될 수 있다. 프로세서(1030)는 다운스트림 포트(1020), Tx/Rx(1010), 업스트림 포트(1050), 및 메모리(1032)와 통신한다. 프로세서(1030)는 코딩 모듈(1014)을 포함한다. 코딩 모듈(1014)은, 패치(603)의 세트로 분리되고 V-PCC 비트스트림(900)에서 점유 프레임(710), 지오메트리 프레임(720), 및 아틀라스 프레임(730)으로 인코딩되는 포인트 클라우드 미디어(500)를 활용할 수 있는, 방법(100, 1100, 및 1200)과 같은 본원에서 설명되는 개시된 실시형태를 구현한다. 코딩 모듈(1014)은 메커니즘(800) 및 본원에서 설명되는 임의의 다른 방법/메커니즘을 또한 구현할 수 있다. 게다가, 코딩 모듈(1014)은 코덱 시스템(200), 인코더(300), 및/또는 디코더(400)를 구현할 수 있다. 예를 들면, 인코더에 있는 코딩 모듈(1014)은 3D 경계 박스 스케일 및/또는 3D 경계 박스 스케일의 존재를 나타내는 플래그를 V-PCC 비트스트림에 인코딩할 수 있다. 게다가, 디코더에 있는 코딩 모듈(1014)은, 그 다음, 3D 경계 박스 스케일을 사용하여 3D 경계 박스 및 3D 경계 박스에 포함되는 포인트 클라우드를 스케일링할 수 있다. 이것은, 인코더가 포인트 클라우드에 대한 실제 세계 사이즈(예를 들면, 미터 단위)를 명시하는 것을 허용한다. 그 다음, 디코더는, 예를 들면, 다른 비디오 데이터 상으로 오버레이하기 위해, 포인트 클라우드를 적절한 실제 세계 사이즈로 스케일링할 수 있다. 그러므로, 코딩 모듈(1014)은, 비디오 데이터를 코딩할 때 비디오 코딩 디바이스(1000)로 하여금 추가적인 기능성 및/또는 코딩 효율성을 제공하게 한다. 그러한 만큼, 코딩 모듈(1014)은 비디오 코딩 디바이스(1000)의 기능성을 향상시킬 뿐만 아니라, 비디오 코딩 기술에 고유한 문제를 해결한다. 게다가, 코딩 모듈(1014)은 상이한 상태로의 비디오 코딩 디바이스(1000)의 변환을 실행한다. 대안적으로, 코딩 모듈(1014)은 메모리(1032)에 저장되며 프로세서(1030)에 의해 실행되는 명령어로서(예를 들면, 비일시적 매체 상에 저장되는 컴퓨터 프로그램 제품으로서) 구현될 수 있다.

메모리(1032)는 디스크, 테이프 드라이브, 솔리드 스테이트 드라이브, 리드 온리 메모리(read only memory; ROM), 랜덤 액세스 메모리(random access memory; RAM), 플래시 메모리, 터너리 콘텐츠 어드레서블 메모리(ternary content-addressable memory; TCAM), 정적 랜덤 액세스 메모리(static random-access memory; SRAM)와 같은 하나 이상의 메모리 타입을 포함한다. 메모리(1032)는, 그러한 프로그램이 실행을 위해 선택될 때 프로그램을 저장하기 위해, 그리고 프로그램 실행 동안 판독되는 명령어 및 데이터를 저장하기 위해, 오버플로우 데이터 스토리지 디바이스로서 사용될 수 있다.

도 11은, 예를 들면, 메커니즘(800)에 따라, 재구성시 포인트 클라우드 스케일링을 지원하기 위해 V-PCC 비트스트림(900)과 같은 PCC 비트스트림을 인코딩하는 예시적인 방법(1100)의 플로우차트이다. 방법(1100)은, 방법(100)을 수행할 때 코덱 시스템(200), 인코더(300), 및/또는 비디오 코딩 디바이스(1000)와 같은 인코더에 의해 활용될 수 있다. 그러한 만큼, 방법(1100)은, 패치(603)의 세트로 분리되고 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및/또는 속성 프레임에 인코딩되는 포인트 클라우드 미디어(500)에 대해 동작될 수 있다.

방법(1100)은, 인코더가 포인트 클라우드를 포함하는 비디오 시퀀스를 수신하면 시작될 수 있다. 구체적으로, 포인트 클라우드는 포인트 클라우드 및 시간 경과에 따른 포인트 클라우드에 대한 임의의 변경을 묘사하는 볼륨 프레임의 시퀀스로 표현된다. 그 다음, 인코더는, 예를 들면, 사용자 입력에 기초하여, 그 비디오 시퀀스를 V-PCC 비트스트림에 인코딩할 것을 결정한다. 단계(1101)에서, 인코더는 직교 투영을 활용하여 볼륨 프레임에 대한 포인트 클라우드를 3D 경계 박스의 2D 면 상으로 투영한다. 그러한 2D 면은 2D 경계 박스로서 지칭될 수 있다. 투영은 상이한 관점에서 포인트 클라우드를 표현하는 복수의 2D 패치를 생성한다.

단계(1103)에서, 인코더는 2D 패치를 아틀라스 프레임에 인코딩하고 아틀라스 프레임을 V-PCC 비트스트림에 인코딩한다. 패치는 아틀라스, 아틀라스 정보, 아틀라스 비디오 데이터, 아틀라스 성분, 등등으로 또한 지칭될 수 있다. 아틀라스/패치는 포인트 클라우드의 루마 및/또는 크로마 성분의 2D 투영을 포함한다. 특정한 예에서, 패치는 아틀라스 프레임에 패킹될 수 있다. 이것은 패치를, VVC, AVC, HEVC, 등등과 같은 다양한 표준화된 인코더에 의해 쉽게 인코딩될 수 있는 정사각형/직사각형 프레임에 배치한다. 그러나, 패치의 불규칙한 본질에 기인하여, 패치는 일반적으로 아틀라스 프레임에서 공백을 남긴다. 그러한 만큼, 아틀라스 프레임은 비디오 데이터가 없는 섹션을 포함한다.

따라서, 인코더는 단계(1105)에서 점유의 점유 프레임을 생성하고 V-PCC 비트스트림에 인코딩한다. 점유는 점유 정보, 점유 데이터, 점유 성분, 등등으로서 또한 지칭될 수 있다. 점유 성분은, 디코더에게, 아틀라스 프레임의 어떤 샘플이 비디오 데이터와 관련되는지를 통지한다. 본원에서 사용되는 바와 같이, 샘플은 포인트 클라우드의 하나 이상의 포인트를 설명하는 비디오 데이터의 임의의 부분이다. 인코더는 또한 단계(1105)에서 지오메트리의 지오메트리 프레임을 결정하고 V-PCC 비트스트림에 인코딩한다. 지오메트리는 지오메트리 정보, 지오메트리 데이터, 지오메트리 성분, 등등으로서 또한 지칭될 수 있다. 지오메트리 성분은 3D 공간에서의 샘플/포인트의 위치를 나타내는 정보를 포함한다. 게다가, 포인트 클라우드의 포인트는 하나 이상의 속성과 관련될 수 있다. 속성은, 선택적으로, 컬러, 반사율, 표면 법선, 타임 스탬프, 재료 ID, 등등과 같은 포인트 클라우드의 볼륨 프레임의 각각의 포인트와 관련되는 스칼라 또는 벡터 특성일 수 있다. 인코더는 또한 단계(1105)에서 선택적으로 속성의 속성 프레임을 결정하고 V-PCC 비트스트림에 인코딩할 수 있다. 속성은 속성 정보, 속성 데이터, 속성 성분, 등등으로서 또한 지칭될 수 있다. 속성 성분은 샘플의 특성을 제공한다.

단계(1107)에서, 인코더는 포인트 클라우드(또는 그 일부)에 대한 적용을 위한 스케일을 결정할 수 있다. 예를 들면, 인코더는 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정할 수 있다. 예를 들면, 3D 경계 박스 스케일은 3D 경계 박스의 샘플을 로컬 좌표 시스템으로부터 실제 세계 사이즈로 재스케일링하기 위한 파라미터를 포함할 수 있다. 3D 경계 박스 스케일은, 오브젝트에 대해 명시될 수 있는 3D 경계 박스 파라미터에 적용될 스케일을 나타낼 수 있다. 예를 들면, 포인트 클라우드의 볼륨 프레임은 아틀라스 프레임, 점유 프레임, 지오메트리 프레임, 및/또는 속성 프레임으로부터의 데이터를 사용하여 3D 경계 박스 안으로 재구성될 수 있다. 이것은, 데카르트 좌표 시스템과 같은 로컬 좌표 시스템에 따라 단위가 없는 임의적인 사이즈를 가지고 인코딩되는 하나 이상의 포인트 클라우드를 초래한다. 3D 경계 박스 스케일은, 로컬 좌표 시스템을, 오브젝트를 실제 세계 사이즈에서 설명하는 최종 타겟 3D 좌표 시스템으로 변환하는 것에 의해 경계 박스의 전체 포인트 클라우드 스케일에 적용될 수 있는 변환으로서 구현될 수 있다. 이것은, (예를 들면, 디코더에서 대응하는 애플리케이션에 의한 상당한 추가적인 프로세싱 없이 및/또는 디코더에서 사용자 개입 없이) 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이 될 수 있도록, 디코더에서 재구성되는 바와 같은 포인트 클라우드가 정확하게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일은, 3D 경계 박스에서의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수일 수 있다. 예를 들면, 3D 경계 박스 스케일은 포인트 클라우드 프레임에서의 공간 단위의 개수 및 3D 경계 박스에서 공간 주파수에 기초하여 정의되는 스텝 사이즈 값을 상관시킬 수 있다. 구체적인 예로서, 3D 경계 박스 스케일은, 포인트 클라우드 프레임에서의 공간 단위의 개수에 의해 나누어지는 소망되는 공간 주파수의 몫과 동일한 스텝 사이즈(예를 들면, 미터 단위) 및 스텝의 개수를 나타낼 수 있다.

인코더는 단계(1109)에서 3D 경계 박스 스케일을 V-PCC 비트스트림에 인코딩할 수 있다. 몇몇 경우에, 3D 경계 박스 스케일은 SOI SEI 메시지에서 soi_3d_bounding_box_scale_log2 파라미터로서 V-PCC 비트스트림에 인코딩될 수 있다. 한 예에서, 3D 경계 박스는 미터의 단위로 스케일링될 수 있다. 따라서, 인코더는 3D 경계 박스의 사이즈가 미터 단위로 사이즈가 조정되는지의 여부를 나타내기 위한 플래그를 또한 인코딩할 수 있다. 특정한 예에서, 플래그는 V-PCC 비트스트림에서 아틀라스 SPS에 인코딩되는 vui_unit_in_metres_flag일 수 있다. vui_unit_in_metres_flag는, 실제 세계 좌표 정보가 미터 단위로 표현된다는 것을 명시하기 위해 1과 동일하게 설정될 수 있거나 또는 세계 좌표가 단위가 없다는 것을 명시하기 위해 제로로 설정될 수 있다.

단계(1111)에서, 인코더는, 3D 경계 박스 정보가 V-PCC 비트스트림에서 존재하는지의 여부를 나타내기 위해 플래그를 V-PCC 비트스트림에 인코딩할 수 있다. 예를 들면, 플래그의 값은 3D 경계 박스 스케일을 3D 경계 박스에 적용할지의 여부를 나타낼 수 있다. 구체적인 예로서, 플래그는 soi_3d_bounding_box_present_flag로서 인코딩될 수 있다. soi_3d_bounding_box_present_flag는 soi_3d_bounding_box_scale_log2가 V-PCC 비트스트림의 SOI SEI 메시지에서 인코딩되는지의 여부를 나타낼 수 있다. 특정한 예에서, soi_3d_bounding_box_present_flag는, 3D 경계 박스 정보가 현재의 SOI SEI 메시지에서 존재한다는 것을 나타내기 위해 1과 동일하게 설정될 수 있거나, 또는 3D 경계 박스 정보가 SOI SEI 메시지에서 존재하지 않는다는 것을 나타내기 위해 제로와 동일하게 설정될 수 있다.

단계(1113)에서, 인코더는 디코더를 향하는 통신을 위해 비트스트림을 저장할 수 있다. 인코더는, 비트스트림을 요청시 디코더를 향해 및/또는 소망되는 대로 저장을 위한 중간 콘텐츠 서버로 또한 송신할 수 있다. 그러한 만큼, 방법(1100)은, 포인트 클라우드를 스케일링할지의 여부 및 예를 들면, (예를 들면, AR에서) 실제 세계 사이즈의 비디오와 연계하여 사용될 그러한 스케일링을 수행하는 방법을 디코더에게 나타내기 위해 충분한 정보를 PCC 비트스트림에 인코딩한다.

도 12는, 예를 들면, 메커니즘(800)에 따라, 스케일링된 포인트 클라우드를 재구성하기 위해 V-PCC 비트스트림(900)과 같은 PCC 비트스트림을 디코딩하는 예시적인 방법(1200)의 플로우차트이다. 방법(1200)은, 방법(100)을 수행할 때 코덱 시스템(200), 디코더(400), 및/또는 비디오 코딩 디바이스(1000)와 같은 디코더에 의해 활용될 수 있다. 그러한 만큼, 방법(1200)은, 패치(603)의 세트로 분리되고 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및/또는 속성 프레임에 인코딩되는 포인트 클라우드 미디어(500)에 대해 동작될 수 있다.

방법(1200)은, 디코더가 예를 들면, 방법(1100)의 결과로서 포인트 클라우드의 비디오 시퀀스를 나타내는 코딩된 데이터의 V-PCC 비트스트림을 수신하기 시작할 때 시작될 수 있다. 단계(1201)에서, 디코더는 V-PCC 비트스트림을 수신할 수 있다. 비트스트림은 아틀라스 프레임에서 복수의 2D 패치/2D 성분/아틀라스를 포함할 수 있다. 비트스트림은 점유 프레임, 지오메트리 프레임, 및 속성 프레임에서, 각각, 점유, 지오메트리, 및/또는 속성을 또한 포함할 수 있다. 점유는 점유 정보, 점유 데이터, 점유 성분, 등등으로서 또한 지칭될 수 있다. 점유 성분은, 디코더에게, 아틀라스 프레임의 어떤 샘플이 비디오 데이터와 관련되는지를 통지한다. 본원에서 사용되는 바와 같이, 샘플은 포인트 클라우드의 하나 이상의 포인트를 설명하는 비디오 데이터의 임의의 부분이다. 지오메트리는 지오메트리 정보, 지오메트리 데이터, 지오메트리 성분, 등등으로서 또한 지칭될 수 있다. 지오메트리 성분은 3D 공간에서의 샘플/포인트의 위치를 나타내는 정보를 포함한다. 게다가, 포인트 클라우드의 포인트는 하나 이상의 속성과 관련될 수 있다. 속성은, 선택적으로, 컬러, 반사율, 표면 법선, 타임 스탬프, 재료 ID, 등등과 같은 포인트 클라우드의 볼륨 프레임의 각각의 포인트와 관련되는 스칼라 또는 벡터 특성일 수 있다. 속성은 속성 정보, 속성 데이터, 속성 성분, 등등으로서 또한 지칭될 수 있다. 속성 성분은, 존재하는 경우, 샘플의 특성을 제공한다. V-PCC 비트스트림은, 3D 경계 박스 스케일, 3D 경계 박스 정보가 존재하는지의 여부를 나타내는 플래그, 및/또는 포인트 클라우드에 대한 단위가 미터 단위이다는 것을 나타내는 플래그를 또한 포함할 수 있다.

단계(1203)에서, 패치는 디코딩된다. 예를 들면, 디코더는 참조 프레임에 기초하여 인터 예측을 및/또는 동일한 프레임의 블록에 기초하여 인트라 예측을 활용하는 것에 의해 패치/아틀라스를 디코딩할 수 있다.

단계(1205)에서, 포인트 클라우드는 3D 경계 박스에서의 투영을 통해 패치를 3D 패치 좌표 시스템으로 변환하는 것에 의해 재구성된다. 이것은 패치를 로컬 좌표 시스템으로부터 3D 경계 박스의 각각의 투영 평면(예를 들면, 여섯 개의 면 각각)에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 달성될 수 있다. 몇몇 예에서, 3D 패치 좌표 시스템은 실제 세계 공간과 연계하여 동작하기 위해 미터의 단위를 활용하는 타겟 3D 좌표 시스템으로 변환될 수 있다. 그러한 디코딩 및 재구성은, 점유 성분, 지오메트리 성분, 및 속성 성분을 활용하는 것에 의해 수행될 수 있다. 예를 들면, 디코더는 아틀라스 프레임의 어떤 부분이 비디오 데이터를 포함하는지 결정하기 위해 점유를 활용할 수 있다. 아틀라스 프레임의 그들 부분은 디코딩되어 아틀라스/패치를 획득할 수 있다. 지오메트리 프레임으로부터의 지오메트리는 3D 경계 박스 내부에 포인트를 배치하기 위해 활용될 수 있다. 그 다음, 패치/아틀라스는 3D 경계 박스의 포인트 상으로 투영될 수 있다. 속성은, 속성 프레임에서 존재하는 경우, 그러한 포인트에 또한 적용될 수 있다.

단계(1207)에서, 3D 경계 박스 스케일은, 예를 들면, 플래그의 값에 기초하여, 3D 경계 박스 및 모든 포함된 포인트에 적용된다. 특정한 구현예에서, 3D 경계 박스 스케일은, 3D 경계 박스의 샘플을, 재구성 동안 사용되는 로컬 좌표 시스템으로부터 실제 세계 사이즈로 재스케일링하기 위한 파라미터를 포함할 수 있다. 3D 경계 박스 스케일은, 오브젝트에 대해 명시될 수 있는 3D 경계 박스 파라미터에 적용될 스케일을 나타낼 수 있다.

예를 들면, 단계(1205)에서 3D 경계 박스에서 재구성되는 바와 같은 포인트 클라우드의 볼륨 프레임은 데카르트 좌표 시스템과 같은 로컬 좌표 시스템에 따라 임의적인 단위가 없는 사이즈를 활용할 수 있다. 3D 경계 박스 스케일은, 로컬 좌표 시스템을, 오브젝트를 실제 세계 사이즈에서 설명하는 최종 타겟 3D 좌표 시스템으로 변환하는 것에 의해 경계 박스의 전체 포인트 클라우드 스케일에 적용될 수 있는 변환으로서 구현될 수 있다. 이것은 (예를 들면, 디코더에서 대응하는 애플리케이션에 의한 상당한 추가적인 프로세싱 없이 및/또는 디코더에서 사용자 개입 없이) 재구성된 포인트 클라우드가 실제 세계 비디오 상으로 오버레이될 수 있도록 포인트 클라우드가 올바르게 사이즈 조정되는 것을 허용한다. 3D 경계 박스 스케일은, 3D 경계 박스에서의 샘플 밀도 및 3D 경계 박스의 사이즈에 기초한 계수일 수 있다. 예를 들면, 3D 경계 박스 스케일은 포인트 클라우드 프레임에서의 공간 단위의 개수 및 3D 경계 박스에서 공간 주파수에 기초하여 정의되는 스텝 사이즈 값을 상관시킬 수 있다. 구체적인 예로서, 3D 경계 박스 스케일은, 포인트 클라우드 프레임에서의 공간 단위의 개수에 의해 나누어지는 소망되는 공간 주파수의 몫과 동일한 스텝 사이즈(예를 들면, 미터 단위) 및 스텝의 개수를 나타낼 수 있다. 몇몇 경우에, 3D 경계 박스 스케일은 SOI SEI 메시지의 soi_3d_bounding_box_scale_log2 파라미터에서 V-PCC 비트스트림으로부터 획득될 수 있다.

게다가, 플래그는 3D 경계 박스 정보가 V-PCC 비트스트림에서 존재하는지의 여부를 나타낼 수 있다. 예를 들면, 플래그의 값은 3D 경계 박스 스케일을 3D 경계 박스에 적용할지의 여부를 나타낼 수 있다. 구체적인 예로서, 플래그는 soi_3d_bounding_box_present_flag로서 인코딩될 수 있다. soi_3d_bounding_box_present_flag는 soi_3d_bounding_box_scale_log2가 V-PCC 비트스트림의 SOI SEI 메시지에서 인코딩되는지의 여부를 나타낼 수 있다. 특정한 예에서, soi_3d_bounding_box_present_flag는, 3D 경계 박스 정보가 현재의 SOI SEI 메시지에서 존재한다는 것을 나타내기 위해 1과 동일하게 설정될 수 있거나, 또는 3D 경계 박스 정보가 SOI SEI 메시지에서 존재하지 않는다는 것을 나타내기 위해 제로와 동일하게 설정될 수 있다.

또한, 3D 경계 박스는 미터의 단위로 스케일링될 수 있다. 따라서, V-PCC 비트스트림은 3D 경계 박스의 사이즈가 미터 단위로 사이즈가 조정되는지의 여부를 나타내기 위한 플래그를 포함할 수 있다. 특정한 예에서, 플래그는 V-PCC 비트스트림에서 아틀라스 SPS에 인코딩되는 vui_unit_in_metres_flag일 수 있다. vui_unit_in_metres_flag는, 실제 세계 좌표 정보가 미터 단위로 표현된다는 것을 명시하기 위해 1과 동일하게 설정될 수 있거나 또는 세계 좌표가 단위가 없다는 것을 명시하기 위해 제로로 설정될 수 있다.

렌더링 이후, 지오메트리 상으로 투영되는 재구성된 아틀라스 프레임을 포함하는 포인트 클라우드는 디스플레이를 위해 또한 포워딩될 수 있다. 렌더링은 3D 경계 박스를 기준으로 한 포지션에서 뷰포트를 배치하는 것을 포함할 수 있다. 이것은 3D 이미지를, 사용자의 스크린 상에서 볼 수 있는 2D 이미지로 변환한다. 예를 들면, 렌더링된 콘텐츠는 렌더링되고 실시간 비디오 데이터와 결합되어 AR 콘텐츠를 생성할 수 있고, 그 다음, 스마트폰, 태블릿, 랩탑, 등등과 같은 사용자 디바이스 상에서 사용자에게 디스플레이될 수 있다. 3D 경계 박스 스케일을 활용하는 것에 의해, 렌더링되는 재구성된 포인트 클라우드는, 실제 세계 치수 및 사이즈를 활용하는 애플리케이션에 의해 사용되는 좌표에 직접적으로 매칭될 수 있다. 그러한 만큼, 렌더링된 포인트 클라우드는 AR 애플리케이션에 대한 비디오 데이터 상으로 쉽게 오버레이 될 수 있다. 다른 예로서, 렌더링된 포인트 클라우드는, 실제 세계 치수에 기초하여 구성되는 임의의 디지털 공간에 쉽게 배치될 수 있다. 그러한 만큼, 3D 경계 박스 스케일 및 관련된 플래그는, 인코더 및 디코더 둘 모두에서 추가적인 기능성을 초래하고, 뿐만 아니라, 증가된 코딩 효율성을 지원한다.

도 13은, 예를 들면, 메커니즘(800)에 따라, 재구성시 포인트 클라우드 스케일링을 지원하기 위해 V-PCC 비트스트림(900)과 같은 PCC 비트스트림을 코딩하기 위한 예시적인 시스템(1300)의 개략도이다. 시스템(1300)은, 코덱 시스템(200), 인코더(300), 디코더(400), 및/또는 비디오 코딩 디바이스(1000)와 같은 인코더 및 디코더에 의해 구현될 수 있다. 그러한 만큼, 시스템(1300)은, 패치(603)의 세트로 분리되고 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 및/또는 속성 프레임에 인코딩되는 포인트 클라우드 미디어(500)에 대해 동작될 수 있다. 게다가, 시스템(1400)은 방법(100, 1100, 및/또는 1200)을 구현할 때 활용될 수 있다.

시스템(1300)은 비디오 인코더(1302)를 포함한다. 비디오 인코더(1302)는, 포인트 클라우드를 나타내는 복수의 2D 패치를 생성하기 위해 3D 경계 박스 상으로의 직교 투영을 활용하기 위한 활용 모듈(1303)을 포함한다. 비디오 인코더(1302)는 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정하기 위한 결정 모듈(1304)을 더 포함한다. 비디오 인코더(1302)는 2D 패치를 비트스트림의 아틀라스 프레임에 인코딩하기 위한 인코딩 모듈(1305)을 더 포함한다. 인코딩 모듈(1305)은 또한 3D 경계 박스 스케일을 비트스트림에 인코딩하기 위한 것이다. 비디오 인코더(1302)는, 디코더를 향한 통신을 위해 비트스트림을 저장하기 위한 저장 모듈(1306)을 더 포함한다. 비디오 인코더(1302)는 비디오 디코더(1310)를 향해 비트스트림을 송신하기 위한 송신 모듈(1307)을 더 포함한다. 비디오 인코더(1302)는 방법(1100)의 단계 중 임의의 것을 수행하도록 추가로 구성될 수 있다.

시스템(1300)은 비디오 디코더(1310)를 또한 포함한다. 비디오 디코더(1310)는 3D 경계 박스 스케일 및 아틀라스 프레임에서 복수의 2D 패치를 포함하는 비트스트림을 수신하기 위한 수신 모듈(1311)을 포함한다. 비디오 디코더(1310)는 패치를 디코딩하기 위한 디코딩 모듈(1313)을 더 포함한다. 비디오 디코더(1310)는 패치를 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드를 재구성하기 위한 재구성 모듈(1315)을 더 포함한다. 비디오 디코더(1310)는 3D 경계 박스 스케일을 3D 경계 박스에 적용하기 위한 적용 모듈(1317)을 더 포함한다. 비디오 디코더(1310)는 디스플레이를 위해 재구성된 포인트 클라우드를 포워딩하기 위한 포워딩 모듈(1319)을 더 포함한다. 비디오 디코더(1310)는 방법(1200)의 단계 중 임의의 것을 수행하도록 추가로 구성될 수 있다.

비디오 데이터를 렌더링하기 위한 다양한 렌더링 기술이 존재한다. 그러나, PCC 비디오 데이터에 대한 렌더링 기술의 단순한 적용은 비효율적인 렌더링 프로세스를 초래할 수 있다. 예를 들면, 많은 타입의 비디오 데이터는, 디코딩될 수 있고, CPU로부터 그래픽 프로세싱 유닛(GPU)로 전송될 수 있고, 디스플레이를 위해 렌더링될 수 있는 단일의 타입의 데이터를 포함한다. 그러나, PCC는 서로 상호 작용하는 다수의 타입의 비디오 데이터를 활용한다. 따라서, 몇몇 렌더링 시스템은 소정의 렌더링 태스크를 위해 아틀라스, 지오메트리, 점유, 및/또는 속성 비디오 데이터를 CPU로부터 GPU로 디코딩 및 전송할 수 있다. 그 다음, 데이터는 CPU로 다시 전송되어 결합된다. 그 다음, 결과는 디스플레이 이전에 완전한 렌더링을 위해 GPU로 다시 전송된다. CPU와 GPU 사이에서의 그러한 이동은, 각각의 렌더링된 프레임에 대한 CPU 버퍼와 GPU 버퍼 사이의 다수의 전송을 초래하는데, 이것은 렌더링 프로세스에서 레이턴시 및 리소스 사용량을 크게 증가시킨다.

렌더링 프로세스 동안 반복된 메모리 이동을 방지하도록 구성되는 V-PCC 렌더러가 또한 본원에서 개시된다. CPU는 아틀라스 데이터(예를 들면, 패치), 점유, 지오메트리(예를 들면, 정점), 및/또는 속성 데이터를 디코딩하기 위해 사용될 수 있다. 그러한 데이터는 정점 버퍼 및/또는 유니폼 버퍼와 같은 하나 이상의 버퍼에 저장된다. 그 다음, GPU 쉐이더는, 3D 포인트 클라우드를 재구성하고 포인트 클라우드로부터 2D 이미지를 렌더링하기 위해, 버퍼의 데이터에 바인딩될 수 있다. 예를 들면, 압축 프로세스로부터의 아티팩트인 패치 데이터, 지오메트리 데이터, 및/또는 속성 데이터를 제거하기 위해, GPU 쉐이더는 점유를 텍스쳐로서 적용할 수 있다. 다른 GPU 쉐이더는 모델 매트릭스를 초기화할 수 있고 지오메트리 데이터로부터 3D 모델의 정점을 생성할 수 있다. 또 다른 쉐이더는 패치 및/또는 속성을 텍스쳐로서 정점 상으로 투영할 수 있다. 이것은, 그러한 데이터를 CPU 버퍼로부터 GPU 버퍼로 복사하지 않고도 수행될 수 있다. 3D 포인트 클라우드로부터 디스플레이를 위한 2D 이미지를 생성하기 위해, 변환이 또한 사용될 수 있다. 패치의 서브 블록과 같은 텍스쳐가 다수의 쉐이더에 할당될 수 있는데, 이것은 GPU에서 병렬 프로세싱 성능을 증가시킨다. 몇몇 예에서, V-PCC 이미지의 전체 프레임은 GPU에 대한 단일의 드로우 콜(draw call)을 사용하여 렌더링될 수 있다. 그러한 렌더링은, 대부분의 사용자 기기 디바이스가 증강 현실(AR) 애플리케이션에서 V-PCC 콘텐츠를 활용하는 것을 허용할 만큼 충분히 빠르게 수행될 수 있다. 그러한 만큼, 개시된 예는 V-PCC 데이터를 디코딩할 때 디코더의 성능을 증가시킨다. 게다가, 본 예는 프로세서, 메모리, 및/또는 GPU 리소스 사용량을 감소시키고, 그러므로, 디코더의 기능성을 증가시킨다.

도 14는 V-PCC 비트스트림에서의 데이터 단위(1400)의 예시적인 세트의 개략도이다. 예를 들면, 데이터 단위(1400)는 V-PCC 비트스트림(900)에 포함될 수 있다. 그러므로, 데이터 단위(1400)는, 방법(100, 1100, 및/또는 1200), 코덱 시스템(200), 인코더(300), 디코더(400), 포인트 클라우드 미디어(500), 패치(603), 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 메커니즘(800), 비디오 코딩 디바이스(1000), 및/또는 시스템(1300)과 연계하여 사용될 수 있다.

데이터 단위(1400)는 V-PCC 데이터를 포함하는 데이터 단위인 복수의 V-PCC 단위(1410)를 포함한다. V-PCC 단위(1410)는 페이로드 및 그 안에 포함되는 데이터의 타입의 지시자를 포함할 수 있다. V-PCC 단위(1410)는 V-PCC 파라미터 세트(1420)의 서브 비트스트림으로 편제될 수 있는데, 이들은 관련된 비디오 데이터가 코딩되는 방법을 나타내기 위해 사용되는 파라미터를 포함하는 임의의 V-PCC 단위(1410)이다. V-PCC 파라미터 세트(1420)는 점유 파라미터(1421), 지오메트리 파라미터(1423), 및/또는 속성 파라미터(1425)를 포함할 수 있다. 점유 파라미터(1421)는 코딩된 점유 비디오 데이터(1441)를 해석하는 방법을 설명하는 데이터를 포함한다. 지오메트리 파라미터(1423)는 지오메트리 비디오 데이터(1443)를 해석하는 방법을 설명하는 데이터를 포함한다. 속성 파라미터(1425)는 속성 비디오 데이터(1445)를 해석하는 방법을 설명하는 데이터를 포함한다. V-PCC 파라미터 세트(1420)는 V-PCC 파라미터 세트(911)와 실질적으로 유사할 수 있다.

V-PCC 단위(1410)는, 점유 프레임(915), 지오메트리 프레임(917), 및 속성 프레임(919)과, 각각, 실질적으로 유사한 데이터를 포함할 수 있는, 점유 비디오 데이터(1441), 지오메트리 비디오 데이터(1443), 및/또는 속성 비디오 데이터(1445)를 포함하는 서브 비트스트림으로 추가로 편제될 수 있다. V-PCC 단위(1410)는, 하나 이상의 아틀라스 프레임(913)을 포함할 수 있는 아틀라스 서브 비트스트림(1430)을 또한 포함할 수 있다. 아틀라스 서브 비트스트림(1430)은, 아틀라스 데이터를 포함하며 네트워크를 통한 송신을 위해 사이즈가 조정되는 데이터 단위인 아틀라스 NAL 단위(1431)를 포함할 수 있다. 아틀라스 NAL 단위(1431)는 아틀라스 시퀀스 파라미터 세트(SPS)(1433), 아틀라스 프레임 파라미터 세트(frame parameter set; FPS), 아틀라스 타일 그룹 레이어(1437), 및/또는 보충 향상 정보(SEI) 메시지(1439)를 포함할 수 있다. 아틀라스 SPS(1433)는 아틀라스 데이터의 전체 시퀀스에 관련되는 코딩 메커니즘 설정을 설명하는 데이터를 포함한다. 아틀라스 FPS(1435)는 하나 이상의 대응하는 V-PCC 프레임에 관련되는 코딩 메커니즘 설정을 설명하는 데이터를 포함한다. 아틀라스 타일 그룹 레이어(1437)는, 패치 또는 그 서브 블록을 포함할 수 있는 하나 이상의 대응하는 아틀라스 타일 그룹에 관련되는 코딩 메커니즘 설정을 설명하는 데이터를 포함한다. SEI 메시지(1439)는 비디오 데이터를 디코딩하기 위해 사용되지 않는 데이터를 포함할 수 있지만, 그러나 표준 준수를 위해 비트스트림을 체크하기 위해 사용될 수 있고 및/또는 비디오 재생 설정을 설명하기 위해 사용될 수 있다.

도 15는 예시적인 V-PCC 렌더러(1510)의 개략도(1500)이다. V-PCC 렌더러(1510)는 코덱 시스템(200), 디코더(400), 및/또는 비디오 코딩 디바이스(1000)에서 사용될 수 있다. 그러한 만큼, V-PCC 렌더러(1510)는 방법(100, 1100, 및/또는 1200), 인코더(300), 포인트 클라우드 미디어(500), 패치(603), 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 메커니즘(800), V-PCC 비트스트림(900), 시스템(1300), 및/또는 데이터 단위(1400)와 연계하여 또한 사용될 수 있다.

V-PCC 렌더러(1510)는 소프트웨어 및 하드웨어 둘 모두를 활용하여 구현된다. 그러한 만큼, V-PCC 렌더러(1510)는, 예를 들면, 디스플레이를 통한 사용자에 대한 디스플레이를 위해 코딩된 포인트 클라우드를 재구성하기 위해 하드웨어 리소스를 활용하는 컴포넌트의 세트이다. V-PCC 렌더러(1510)는 디지털 카메라와 같은 하드웨어 카메라를 활용하여 이미지 및/또는 비디오를 캡쳐하도록 구성되는 컴포넌트인 카메라(1513)를 포함할 수 있다. V-PCC 렌더러(1510)는 증강 현실(AR) 컴포넌트(1511)를 또한 포함할 수 있다. AR 컴포넌트(1513)는, 예를 들면, 그래픽 컴포넌트(1520)로부터 생성된 및/또는 사전 레코딩된 그래픽을, 사용자에 대한 디스플레이를 위해, 카메라(1513)에 의해 촬상되는 이미지 상으로 오버레이하도록 구성된다. 이것은, AR 컴포넌트(1511)가, 디스플레이된 현실에 대한 사용자의 뷰를, V-PCC 비디오와 같은 사전 레코딩된 및/또는 생성된 그래픽을 사용하여 증강시키는 것을 허용한다.

V-PCC 렌더러(1510)는 사용자에 대한 디스플레이를 위해 포인트 클라우드를 디코딩 및 재구성하도록 구성되는 컴포넌트인 그래픽 컴포넌트(1520)를 또한 포함한다. 그래픽 컴포넌트(1520)는 텍스쳐 컴포넌트(1521), 정점 버퍼(1523), 유니폼 버퍼(1525), 및 애플리케이션(1527)을 포함할 수 있다. 텍스쳐 컴포넌트(1521)는 코딩된 비디오로부터 다양한 텍스쳐를 재구성하도록 구성된다. 텍스쳐 컴포넌트(1521)는, V-PCC 비트스트림으로부터 아틀라스, 지오메트리, 점유, 속성, 및/또는 관련된 파라미터를 디코딩하도록 구성되는 컴포넌트인 비디오 디코더(1529)를 포함할 수 있다. 그 다음, 텍스쳐 컴포넌트(1521)는 디스플레이를 위해 V-PCC 프레임을 재구성할 때 디코딩된 아틀라스, 지오메트리, 점유, 및/또는 속성 각각을 텍스쳐로서 취급할 수 있고 및/또는 그러한 데이터를 메모리에 저장할 수 있다. 정점 버퍼(1523)는 지오메트리 데이터로부터의 정점을 저장하도록 구성되는 (예를 들면, 캐시 내의) 메모리 컴포넌트이다. 유니폼 버퍼(1525)는 정점 버퍼(1523)의 정점에 대한 적용을 위한 아틀라스 데이터, 점유, 및/또는 속성을 저장하도록 구성되는 (예를 들면, 캐시 내의) 메모리 컴포넌트이다. 애플리케이션(1527)은 아틀라스 데이터, 점유, 및/또는 속성을 정점에 적용하도록 구성되는 컴포넌트이다. 예를 들면, 애플리케이션(1527)은, 예를 들면, 대응하는 변환을 적용하는 것에 의해, 모델 매트릭스를 초기화할 수 있고 아틀라스 데이터, 점유, 및/또는 속성을 정점 상으로 투영할 수 있다. 그러한 만큼, 그래픽 컴포넌트(1520)는 AR 컴포넌트(1511)에 의한 사용을 위해 V-PCC 프레임을 및/또는 V-PCC 렌더러(1510)에 의한 렌더링에서의 사용을 위해 카메라 컴포넌트(1513)로부터의 출력을 디코딩 및 재구성할 수 있다.

그래픽 컴포넌트(1520)는 하드웨어와 상호 작용하기 위해 다양한 애플리케이션 프로그래밍 인터페이스(application programming interface; API)를 활용할 수 있다. 예를 들면, 그래픽 컴포넌트(1520)는 개방형 그래픽 라이브러리(open graphics library; OPENGL)(1531) 및/또는 VULKAN(1533) - 이들 둘 모두는 예시적인 그래픽 API임 - 을 통해 하드웨어와 통신할 수 있다.

예시적인 구현예에서, 렌더링 프로세스는 다음과 같이 설명될 수 있다. CPU 및/또는 GPU는 전역 변수를 초기화하는 것에 의해 시작될 수 있는데, 이것은 모델 매트릭스의 초기화를 포함할 수 있다. 모델 매트릭스는 오브젝트의 모델 공간으로부터 세계 공간으로의 변환을 정의할 수 있다. b가 모델의 경계 박스이면, 다음의 변환을 사용하여, 모델이 (-0.5,-0.5,-0.5)로부터 (0.5,0.5,0.5)로 세계 공간 좌표의 정규화된 단위 정사각형에 적합되도록 모델 매트릭스는 초기화될 수 있다.

이 변환은 모델이 원점에 중심을 두도록 모델을 변환한다. 그 다음, 모델은 경계 박스의 1/최대 치수에 의해 균일하게 스케일링된다. 그 다음, 변환은 모델이 글로벌 x, y, z 축과 정렬되도록 모델을 회전시킨다. 카메라 뷰 매트릭스도 또한 초기화될 수 있다. 카메라 뷰 매트릭스는 세계 공간으로부터 카메라 공간으로의 변환을 생성하기 위해 활용될 수 있다. 모델을 카메라 공간으로부터 스크린 공간으로 변환하는 프로젝션 매트릭스가 또한 활용될 수 있다.

변환 매트릭스는 CPU, GPU, 또는 이들의 조합에 의해 상기에서 설명되는 바와 같이 업데이트될 수 있다. 그 다음, GPU는, 예를 들면 (예를 들면, CPU 상에서 동작하는) 디코더에 의해 디코딩되고 GPU 버퍼에 저장되는 지오메트리, 아틀라스, 점유, 및/또는 속성에 기초하여, 포인트 클라우드를 렌더링할 수 있다. 각각의 프레임에 대해, 포인트 클라우드는 다음의 프로세스를 사용하여 렌더링될 수 있다. 블록 대 패치 맵이 생성될 수 있다. 블록 대 패치 맵은 아틀라스 공간의 블록 대 대응하는 패치의 매핑을 정의한다.

GPU 쉐이더 프로그램은 GPU 버퍼의 데이터에 바인딩될 수 있다. 예를 들면, 지오메트리 쉐이더 프로그램은 GPU에 의해 포인트를 모델 매트릭스 상으로 직접적으로 방출하도록 바인딩될 수 있다. 이것은 CPU 오버헤드를 감소시키고 전체 시스템 성능을 향상시킨다. 이 개념은 컴퓨트 쉐이더 접근법을 사용하여 또한 적용될 수 있다. GPU 텍스쳐도 또한 업데이트될 수 있다. 예를 들면, 디코딩된 이미지는, CPU 버퍼와 GPU 버퍼 사이의 어떠한 복사도 없이, 루마 색도(YUV) 컬러 공간에서 GPU 텍스쳐로서 점유, 지오메트리, 및 속성 비디오 스트림으로부터 직접적으로 바인딩될 수 있다.

그 다음, GPU 버퍼는 업데이트될 수 있다. 예를 들면, 유니폼 버퍼(ubo)는 다음의 데이터를 사용하여 업데이트될 수 있다: 프레임 폭, 프레임 높이, 점유 해상도, 및 모델 뷰 투영(modelViewProj) 매트릭스. 유니폼 버퍼는 캐시 메모리에 저장될 수 있고 대응하는 프레임에 대해 일정한 데이터를 포함할 수 있다. 그 다음, GPU는 패치를 렌더링할 수 있다. 몇몇 예에서, GPU는 복수의(예를 들면, 여섯 개의) 드로우 콜을 사용하여 프레임과 관련되는 모든 패치를 순차적으로 렌더링할 수 있다. 다른 예에서 GPU는 단일의 드로우 콜을 사용하여 모든 패치를 병렬로 렌더링할 수 있다. 병렬 옵션은 드라이버 오버헤드를 추가로 감소시킬 수 있고 성능을 향상시킨다.

별개의 드로우 콜을 사용하여 패치를 렌더링하는 것을 포함하는 예는 다음과 같이 구현될 수 있다. 각각의 패치에 대해, 정점 버퍼가 업데이트될 수 있다. 정점 버퍼는 대응하는 패치로 매핑되는 아틀라스 공간의 블록을 정의한다. 유니폼 버퍼는 각각의 패치에 대해 또한 업데이트될 수 있다. 유니폼 버퍼는 패치 데이터 ubo(patch_data_ubo) 섹션을 포함할 수 있는데, 이것은, 텍스쳐를 샘플링하기 위한 아틀라스 공간에서의 패치 2D 오프셋 및 사이즈를 포함하는 패치 고유의 정보, 세계 공간에서의 패치 3d 오프셋, 패치 축, 패치 투영 모드, 및 아틀라스 공간으로부터 패치 공간으로의 매핑을 정의하는 캔버스 대 패치 매트릭스를 포함한다. 이 매트릭스는 패치 대 캔버스 매트릭스의 역으로서 작용할 수 있다. 포인트를 렌더링하기 위해 드로우 콜이 또한 활용될 수 있다. 프리미티브 카운트는 패치에 대응하는 블록의 개수로 설정될 수 있다. 프리미티브(포인트)는 지오메트리 쉐이더 또는 컴퓨트 쉐이더를 사용하여 GPU 상에서 직접적으로 방출된다.

단일의 드로우 콜을 사용하여 패치를 렌더링하는 것을 포함하는 예는 다음과 같이 구현될 수 있다. 유니폼 버퍼는 업데이트될 수 있다. 유니폼 버퍼는 패치 데이터를, 캔버스/아틀라스 대 패치 매트릭스를 포함하는 전역적 어레이(global array)로서 포함할 수 있다. 정점 버퍼가 또한 업데이트될 수 있다. 정점 버퍼에서, 각각의 엔트리는 아틀라스 공간의 블록 및 대응하는 패치 인덱스를 정의할 수 있다. 프레임의 각각의 패치(예를 들면, 프레임당 여섯 개의 패치)의 포인트를 정점 상으로 렌더링하기 위해, 단일의 드로우 콜이 활용될 수 있다. 프리미티브 카운트는 블록의 개수로 설정될 수 있다. 프리미티브(포인트)는 지오메트리 쉐이더 또는 컴퓨트 쉐이더를 사용하여 GPU 상에서 직접적으로 방출된다.

GPU 렌더링 프로세스는 다음과 같이 구현될 수 있다. 정점 쉐이더는 정점별 데이터를 지오메트리 쉐이더에 복사할 수 있다. 지오메트리 쉐이더는 인스턴싱을 가능하게 하는데, 여기서 각각의 인스턴스는 다수의 정점을 방출한다. 이것은 CPU 오버헤드를 감소시킬 수 있다. 지오메트리 쉐이더 호출당 방출되는 정점의 최대 개수는 점유 해상도 곱하기 레이어의 개수와 동일할 수 있다. 각각의 호출은 아틀라스 공간에서 서브 블록을 프로세싱할 수 있다. 렌더링은 다음의 알고리즘을 사용하여 수행될 수 있다.

V-PCC 데이터에 대한 렌더링 메커니즘이 설명되었다. 이 접근법은 GPU 상에서의 지오메트리 또는 컴퓨트 쉐이더의 활용 및 출력에 대한 비디오 텍스쳐의 직접적인 매핑에 기초한다. 압축 해제를 넘어 대부분의 데이터가 GPU 상에서 프로세싱된다는 사실은 렌더링 속도를 증가시킬 수 있다. 렌더링은 지오메트리 또는 컴퓨트 쉐이더 활용에 기초하여 수행될 수 있다. 비디오 디코더의 출력은, CPU로부터 GPU 메모리 공간으로의 데이터 전송과 관련되는 프로세싱 레이턴시를 감소시키기 위해 GPU 메모리에서 직접적으로 사용된다. 이것은 메모리 복사가 회피되는 것을 허용한다. 패치는, 단일의 지오메트리 쉐이더에 의해 프로세싱될 수 있는 사이즈의 여러 개의 독립적인 블록으로 세분될 수 있다. 이것은 본원에서 인스턴싱으로 지칭될 수 있다. 패치 인덱스 데이터는 각각의 정점에 관련된다. 이것은 하드웨어 비디오 디코더의 대응하는 출력 및 관련된 압축 해제 메타데이터로부터 실질적으로 즉각적인 3d 재구성을 허용한다. 렌더링에 대한 조기 거부 프로세스는 점유 맵 및 아틀라스 프레임 상에서 전달되는 패치 정보에 대한 차단에 기초한다.

도 16은 데이터 단위(1400)를 포함하는 V-PCC 비트스트림(900)과 같은 V-PCC 비트스트림을 렌더링하는 예시적인 방법(1600)의 플로우차트이다. 방법(1600)은 코덱 시스템(200), 디코더(400), 및/또는 비디오 코딩 디바이스(1000) 상에서 동작하는 V-PCC 렌더러(1510) 상에서 구현될 수 있다. 그러한 만큼, 방법(1600)은, 방법(100, 1100, 및/또는 1200), 인코더(300), 포인트 클라우드 미디어(500), 패치(603), 점유 프레임(710), 지오메트리 프레임(720), 아틀라스 프레임(730), 메커니즘(800), 및/또는 시스템(1300)과 연계하여 또한 사용될 수 있다.

방법(1600)은 사용자 기기(user equipment; UE) 상에서 구현될 수 있다. UE는 비디오 콘텐츠를 디코딩하고 디스플레이하기 위해 사용자에 의해 동작 가능한 임의의 디바이스이다. 예를 들면, UE는 카메라, 웹 브라우저, CPU, CPU 버퍼, GPU, GPU 버퍼, 수신기, 송신기, 및/또는 연결된 디스플레이를 통해 구현되는 V-PCC 렌더러(1510)를 포함할 수 있다. 디스플레이는 UE의 일부일 수 있거나 또는 유선 또는 무선 연결을 통해 연결되는 별개의 디바이스일 수 있다. 방법(1600)은, UE가, 예를 들면 증강 현실(AR)의 일부로서, V-PCC 이미지를 디코딩 및 디스플레이하도록 지시받는 경우 시작될 수 있다.

단계(1601)에서, 디코더 상에서 동작하는 CPU는 V-PCC 비트스트림을 디코딩할 수 있다. 이것은 V-PCC 비트스트림으로부터 아틀라스 데이터를 디코딩하는 것을 포함할 수 있다. 아틀라스 데이터는 패치를 포함할 수 있고, 지오메트리 데이터는 정점을 포함할 수 있고, 점유 데이터는 점유를 포함할 수 있고, 및/또는 속성 데이터는 속성을 포함할 수 있다. 패치/아틀라스, 정점/지오메트리, 점유 및/또는 속성은, 그러한 데이터가 디코딩된 이후, 단계(1603)에서 하나 이상의 그래픽 프로세싱 유닛(GPU) 버퍼에 저장된다. 예를 들면, CPU는 V-PCC 비트스트림을 디코딩할 수 있고 데이터를 CPU 버퍼에 저장할 수 있다. CPU는 GPU를 개시하는 하나 이상의 드로우 콜을 발행할 수 있다. 패치/아틀라스, 정점/지오메트리, 점유 및/또는 속성은 드로우 콜(들)의 일부로서 CPU 버퍼(들)로부터 GPU 버퍼(들)로 전송될 수 있다. 예를 들면, GPU 버퍼는 패치를 저장하는 유니폼 버퍼 및 정점을 저장하는 정점 버퍼를 포함할 수 있다.

그 다음, GPU는 GPU 버퍼의 데이터로부터 3D V-PCC 포인트 클라우드를 재구성할 수 있고, V-PCC 데이터를 CPU 버퍼로 다시 이동하지 않고도 사용자에 대한 디스플레이를 위해 포인트 클라우드로부터 2D 이미지를 렌더링할 수 있다. 렌더링 동안 GPU 버퍼에서 V-PCC 데이터를 유지하는 것은 버퍼 사이의 데이터 복사를 방지하는데, 이것은 디코더/렌더러에서 레이턴시 및 리소스 사용량을 감소시킨다. 그러한 만큼, GPU 쉐이더는, 패치 또는 정점을 CPU 메모리에 복사하지 않고도, 정점 상에 패치를 렌더링한다. GPU는 단일의 드로우 콜에 기초하여 각각의 프레임을 렌더링할 수 있거나, 또는 단일의 드로우 콜에 기초하여 프레임의 각각의 패치를 렌더링할 수 있다.

단계(1605)에서, GPU는, 선택적으로, 패치 중 하나 이상을 서브 블록으로 세분할 수 있는데, 이것은 증가된 병렬 프로세싱을 지원한다. GPU는 그 다음 V-PCC 데이터의 각각의 세트를 텍스쳐로서 취급할 수 있다. GPU는 GPU 쉐이더를 각각의 텍스쳐에 바인딩할 수 있는데, 이것은 각각의 타입의 V-PCC 데이터가 병렬로 렌더링되는 것 및 추가적인 프로세싱을 위해 데이터를 CPU로 다시 전송하지 않고도 소망되는 대로 결합되는 것을 허용한다. 따라서, GPU는 패치 및/또는 이들의 서브 블록, 정점, 점유, 및/또는 속성 데이터(만약 있다면)를 대응하는 GPU 쉐이더에 바인딩한다. GPU 쉐이더는 지오메트리 쉐이더, 컴퓨트 쉐이더, 또는 이들의 조합을 포함할 수 있다.

단계(1607)에서, GPU 쉐이더는 GPU 버퍼의 패치, 지오메트리, 및/또는 속성에 점유를 적용한다. 몇몇 경우에, 압축을 증가시키기 위해 초과 데이터가 아틀라스, 지오메트리, 및/또는 속성 데이터로서 포함된다. 실제 비디오 데이터를 포함하지 않는 그러한 초과 데이터를 제거하기 위해 점유가 적용될 수 있다. 따라서, 점유는 패치, 정점, 및/또는 속성에 적용될 수 있다. 그러므로, 점유는 패치를 정점 상으로 렌더링하기 이전에 정점, 패치, 및/또는 속성과 관련되는 하나 이상의 포인트를 거부하기 위해 적용될 수 있다.

단계(1609)에서, GPU 및/또는 대응하는 쉐이더는, 패치를 정점 상으로 렌더링하기 이전에 정점을 원점 주위의 정규화된 단위 정사각형에 적합시키기 위해 모델 매트릭스를 초기화할 수 있다. 모델 매트릭스는 포인트 클라우드의 정점을 수신할 공간을 생성한다. 그 다음, GPU 쉐이더(들)는 모델 매트릭스에서 정점을 포함하는 것에 의해 재구성된 포인트 클라우드의 지오메트리를 생성할 수 있다. 몇몇 예에서, 지오메트리 쉐이더에 의해 방출되는 정점의 최대 개수는 점유 해상도 곱하기 지오메트리 데이터에서의 정점의 레이어의 개수와 동일할 수 있다.

단계(1611)에서, GPU 쉐이더는 패치를 정점 상으로 렌더링할 수 있다. 예를 들면, 패치를 정점 상으로 렌더링하는 것은 패치를 정점의 포인트 상으로 투영하는 것을 포함한다. 게다가, GPU 쉐이더는 속성을, 만약 있다면, 정점 상으로 렌더링할 수 있다. 이것은 패치 텍스쳐 및/또는 속성 데이터를 포함하는 3D 정점을 포함하는 3D 포인트 클라우드를 생성한다. 그 다음, 다양한 변환 매트릭스가 모델 매트릭스에 적용되어 재구성된 3D 포인트 클라우드에 대한 적절한 사이즈의 2D 이미지를 생성할 수 있다. 예를 들면, 변환 매트릭스는 아틀라스 공간으로부터 패치 공간 및/또는 모델 공간으로 변환하기 위한 캔버스 대 패치 매트릭스, 모델 공간으로부터 세계 공간(예를 들면, 실제 세계 좌표를 가짐)으로 변환하기 위한 모델 매트릭스, (예를 들면, 3D 포인트 클라우드의 2D 뷰를 생성하기 위해) 세계 공간으로부터 카메라 공간으로 변환하기 위한 카메라 뷰 매트릭스, 및 카메라 공간으로부터 스크린 공간(예를 들면, 디스플레이에 의해 사용 가능한 좌표를 사용함)으로 변환하기 위한 투영 매트릭스를 포함할 수 있다.

몇몇 경우에, 패치를 정점 상으로 렌더링하는 것은, CPU로부터의 단일의 드로우 콜에 응답하여, 단일의 V-PCC 프레임과 관련되는 모든 패치를 정점 상으로 병렬로 렌더링하는 것을 포함한다. 몇몇 경우에, 패치를 정점 상으로 렌더링하는 것은, CPU로부터의 별개의 드로우 콜에 응답하여, 단일의 V-PCC 프레임과 관련되는 각각의 패치 및/또는 서브 블록을 정점 상으로 렌더링하는 것을 포함한다. 패치를 병렬로 렌더링하는 것은 GPU 버퍼로부터의 패치에 대한 패치 인덱스를 획득하는 것 및 패치 인덱스에 기초하여 패치 각각에 대한 패치 방위를 결정하는 것을 포함할 수 있다. 이것은 GPU가 CPU와 상의하지 않고도 패치를 정확하게 배향하고 렌더링하는 것을 허용한다. 각각의 패치는 상이한 GPU 쉐이더에 의해 렌더링될 수 있다. 서브 블록이 사용되는 경우, 각각의 서브 블록은 상이한 GPU 쉐이더에 의해 렌더링될 수 있다.

AR이 활용되는 경우, 변환 매트릭스를 통해 패치를 정점 상으로 렌더링하는 것은 패치 및 정점을 레코딩된 이미지 상으로 렌더링하여 AR 콘텐츠를 생성하는 것을 포함할 수 있다. 예를 들면, GPU는 드로우 콜을 통해 부착된 카메라로부터 레코딩된 이미지를 수신할 수 있다. 그 다음, GPU는 V-PCC 콘텐츠를 레코딩된 이미지 데이터 상으로 렌더링하여, 실질적으로 실시간으로 레코딩되는 이미지 및 인코더에 의해 사전 레코딩되는 및/또는 사전 생성되는 포인트 클라우드의 오버레이된 렌더링 둘 모두를 포함하는 합성 이미지를 생성할 수 있다.

단계(1613)에서, GPU는 3D 포인트 클라우드의 2D 이미지를, 디스플레이를 위해, GPU 버퍼(들)로부터 스크린으로 포워딩 수 있다.

제1 컴포넌트와 제2 컴포넌트 사이에 라인, 궤적(trace), 또는 다른 매체를 제외한 개재하는 컴포넌트가 없을 때, 제1 컴포넌트는 제2 컴포넌트에 직접적으로 커플링된다. 제1 컴포넌트와 제2 컴포넌트 사이에 라인, 궤적 또는 다른 매체 이외의 개재하는 컴포넌트가 있는 경우, 제1 컴포넌트는 제2 컴포넌트에 간접적으로 커플링된다. 용어 "커플링되는" 및 그것의 변형어는, 직접적으로 커플링되는 것 및 간접적으로 커플링되는 것 둘 모두를 포함한다. 용어 "약"의 사용은, 달리 언급되지 않는 한, 후속하는 숫자의 ±10 %를 포함하는 범위를 의미한다.

또한, 본원에서 기술되는 예시적인 방법의 단계는 반드시 설명되는 순서대로 수행될 필요는 없다는 것이 이해되어야 하며, 그러한 방법의 단계의 순서는 단지 예시적인 것으로 이해되어야 한다. 마찬가지로, 본 개시의 다양한 실시형태와 부합하는 방법에서, 추가적인 단계가 그러한 방법에 포함될 수 있고, 소정의 단계가 생략 또는 조합될 수 있다.

본 개시에서 몇몇 실시형태가 제공되었지만, 개시된 시스템 및 방법은 본 개시의 취지 또는 범위로부터 벗어나지 않으면서 많은 다른 특정한 형태로 구체화될 수도 있다는 것이 이해될 수 있다. 본 예는 제한적인 것이 아니라 예시적인 것으로서 간주되어야 하며, 의도는 본원에서 주어지는 세부 사항으로 제한되지는 않는다. 예를 들면, 다양한 엘리먼트 또는 컴포넌트가 다른 시스템에서 결합 또는 통합될 수 있거나 또는 소정의 피쳐가 생략될 수 있거나, 또는 구현되지 않을 수 있다.

또한, 다양한 실시형태에서 별개인 것으로 또는 분리된 것으로 설명되고 예시되는 기술, 시스템, 서브시스템, 및 방법은, 본 개시의 범위로부터 벗어나지 않으면서, 다른 시스템, 컴포넌트, 기술, 또는 방법과 결합 또는 통합될 수 있다. 다른 변경예, 대체예, 및 수정예가 기술 분야에서 통상의 기술을 가진 자에 의해 확인 가능하고, 본원에서 개시되는 취지 및 범위로부터 벗어나지 않으면서 이루어질 수 있다.

Claims

디코더에 의해 구현되는 방법으로서,
상기 디코더의 수신기에 의해, 삼차원(three-dimensional; 3D) 경계 박스 스케일(bounding box scale) 및 아틀라스 프레임(atlas frame)에서 복수의 이차원(two-dimensional; 2D) 패치를 포함하는 비트스트림을 수신하는 단계와,
상기 디코더의 프로세서에 의해, 상기 2D 패치를 디코딩하는 단계와,
상기 프로세서에 의해, 상기 2D 패치를, 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드를 재구성하는 단계와,
상기 프로세서에 의해, 상기 3D 경계 박스 스케일을 상기 3D 경계 박스에 적용하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 비트스트림은 3D 경계 박스 정보가 존재하는지의 여부를 나타내는 플래그를 더 포함하는,
방법.
제1항 또는 제2항에 있어서,
상기 3D 경계 박스 스케일은 상기 플래그의 값에 기초하여 적용되는,
방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 3D 패치 좌표 시스템은 미터의 단위의 타겟 3D 좌표 시스템으로 변환되는,
방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 비트스트림은 점유 성분(occupancy component), 지오메트리 성분(geometry component), 및 속성 성분(attribute component)을 더 포함하고, 상기 포인트 클라우드는 상기 점유 성분, 지오메트리 성분, 및 속성 성분에 기초하여 재구성되는,
방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 점유 성분은 2D 성분의 어떤 샘플이 비디오 데이터와 관련되는지를 상기 디코더에게 통지하고, 상기 지오메트리 성분은 3D 공간에서 상기 샘플의 위치를 나타내는 정보를 포함하고, 상기 속성 성분은 상기 샘플의 특성(property)을 제공하는,
방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 프로세서에 의해, 디스플레이를 위해 재구성된 아틀라스 프레임을 포워딩하는 단계를 더 포함하는,
방법.
인코더에 의해 구현되는 방법으로서,
상기 인코더의 프로세서에 의해, 포인트 클라우드를 나타내는 복수의 이차원(2D) 패치를 생성하기 위해 삼차원(3D) 경계 박스 상으로의 직교 투영을 활용하는 단계와,
상기 프로세서에 의해, 상기 2D 패치를 비트스트림의 아틀라스 프레임에 인코딩하는 단계와,
상기 프로세서에 의해, 상기 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정하는 단계와,
상기 프로세서에 의해, 상기 3D 경계 박스 스케일을 상기 비트스트림에 인코딩하는 단계와,
상기 인코더의 메모리에 의해, 디코더를 향하는 통신을 위해 상기 비트스트림을 저장하는 단계를 포함하는,
방법.
제8항에 있어서,
상기 3D 경계 박스 스케일은 상기 3D 경계 박스의 샘플을 로컬 좌표 시스템으로부터 실제 세계 사이즈로 재스케일링하기 위한 파라미터를 포함하는,
방법.
제8항 또는 제9항에 있어서,
상기 프로세서에 의해, 3D 경계 박스 정보가 존재하는지의 여부를 나타내는 플래그를 상기 비트스트림에 인코딩하는 단계를 더 포함하는,
방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 플래그의 값은 상기 3D 경계 박스 스케일을 상기 3D 경계 박스에 적용할지의 여부를 나타내는,
방법.
제8항 내지 제11항 중 어느 한 항에 있어서,
상기 3D 경계 박스는 미터의 단위로 스케일링되는,
방법.
제8항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세서에 의해, 점유 성분, 지오메트리 성분, 및 속성 성분을 상기 비트스트림에 인코딩하는 단계를 더 포함하는,
방법.
제8항 내지 제13항 중 어느 한 항에 있어서,
상기 점유 성분은 상기 아틀라스 프레임의 어떤 샘플이 비디오 데이터와 관련되는지를 상기 디코더에게 통지하고, 상기 지오메트리 성분은 3D 공간에서 상기 샘플의 위치를 나타내는 정보를 포함하고, 상기 속성 성분은 상기 샘플의 특성을 제공하는,
방법.
비디오 코딩 디바이스로서,
프로세서, 상기 프로세서에 커플링되는 수신기, 상기 프로세서에 커플링되는 메모리, 및 상기 프로세서에 커플링되는 송신기를 포함하되, 상기 프로세서, 수신기, 메모리, 및 송신기는 제1항 내지 제14항 중 어느 한 항의 방법을 수행하도록 구성되는,
비디오 코딩 디바이스.
비디오 코딩 디바이스에 의한 사용을 위한 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독 가능 매체로서,
상기 컴퓨터 프로그램 제품은, 프로세서에 의해 실행될 때 상기 비디오 코딩 디바이스로 하여금 제1항 내지 제14항 중 어느 한 항의 방법을 수행하게 하는 비일시적 컴퓨터 판독 가능 매체 상에 저장되는 컴퓨터 실행 가능 명령어를 포함하는,
비일시적 컴퓨터 판독 가능 매체.
디코더로서,
삼차원(3D) 경계 박스 스케일 및 아틀라스 프레임에서 복수의 이차원(2D) 패치를 포함하는 비트스트림을 수신하기 위한 수신 수단과,
상기 2D 패치를 디코딩하기 위한 디코딩 수단과,
상기 2D 패치를 3D 경계 박스의 각각의 투영 평면에 의해 정의되는 3D 패치 좌표 시스템으로 변환하는 것에 의해 포인트 클라우드를 재구성하기 위한 재구성 수단과,
상기 3D 경계 박스 스케일을 상기 3D 경계 박스에 적용하기 위한 적용 수단을 포함하는,
디코더.
제17항에 있어서,
상기 디코더는 또한 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 구성되는,
디코더.
인코더로서,
포인트 클라우드를 나타내는 복수의 이차원(2D) 패치를 생성하기 위해 삼차원(3D) 경계 박스 상으로의 직교 투영을 활용하기 위한 활용 수단과,
상기 3D 경계 박스에 대한 적용을 위한 3D 경계 박스 스케일을 결정하기 위한 결정 수단과,
상기 2D 패치를 비트스트림의 아틀라스 프레임에 인코딩하고, 상기 3D 경계 박스 스케일을 상기 비트스트림에 인코딩하기 위한 인코딩 수단과,
디코더를 향하는 통신을 위해 상기 비트스트림을 저장하기 위한 저장 수단을 포함하는,
인코더.
제19항에 있어서,
상기 인코더는 또한 제8항 내지 제14항 중 어느 한 항의 방법을 수행하도록 구성되는,
인코더.
사용자 기기(user equipment; UE)에 의해 구현되는 방법으로서,
비디오 포인트 클라우드 코딩(video point cloud coding; V-PCC) 비트스트림으로부터, 중앙 프로세싱 유닛(central processing unit; CPU)에 의해, 아틀라스 데이터로부터의 패치 및 지오메트리 데이터로부터의 정점(vertex)을 디코딩하는 단계와,
상기 패치 및 상기 정점을 하나 이상의 버퍼에 저장하는 단계와,
GPU에 의해, 상기 패치 및 상기 정점을 하나 이상의 GPU 쉐이더에 텍스쳐로서 바인딩하는 단계와,
삼차원(3D) 재구성된 포인트 클라우드의 이차원(2D) 이미지를 생성하기 위해, 상기 GPU 쉐이더에 의해, 변환 매트릭스를 통해 상기 패치를 상기 정점 상으로 렌더링하는 단계를 포함하는,
방법.
제21항에 있어서,
상기 GPU 쉐이더는 패치 또는 정점을 GPU 메모리에 복사하지 않고도 상기 정점 상에 상기 패치를 렌더링하는,
방법.
제21항 또는 제22항에 있어서,
상기 패치를 상기 정점 상으로 렌더링하는 단계는, 상기 CPU로부터의 단일의 드로우 콜(draw call)에 응답하여, 단일의 V-PCC 프레임과 관련되는 모든 패치를 상기 정점 상으로 병렬로 렌더링하는 단계를 포함하는,
방법.
제21항 내지 제23항 중 어느 한 항에 있어서,
패치를 병렬로 렌더링하는 단계는 상기 CPU 버퍼로부터 상기 패치에 대한 패치 인덱스를 획득하는 단계 및 상기 패치 인덱스에 기초하여 상기 패치 각각에 대한 패치 방위를 결정하는 단계를 포함하는,
방법.
제21항 내지 제24항 중 어느 한 항에 있어서,
상기 CPU에 의해, 상기 V-PCC 비트스트림으로부터 점유를 디코딩하는 단계와,
상기 점유를 버퍼에 상기 저장하는 단계와,
상기 GPU에 의해, 상기 점유를 텍스쳐로서 상기 GPU 쉐이더에 바인딩하는 단계와,
상기 패치를 상기 정점 상으로 렌더링하기 이전에 상기 정점과 관련되는 하나 이상의 포인트를 거부하기 위해, 상기 GPU 쉐이더에 의해, 상기 점유를 적용하는 단계를 더 포함하는,
방법.
제21항 내지 제25항 중 어느 한 항에 있어서,
상기 점유는 상기 패치 및 상기 정점에 적용되는,
방법.
제21항 내지 제26항 중 어느 한 항에 있어서,
상기 패치를 상기 정점 상으로 렌더링하기 이전에 상기 정점을 원점 주위의 정규화된 단위 정사각형에 적합시키기 위해 모델 매트릭스를 초기화하는 단계를 더 포함하는,
방법.
제21항 내지 제27항 중 어느 한 항에 있어서,
상기 GPU에 의해, 상기 패치를 서브 블록으로 세분하는 단계를 더 포함하되, 각각의 서브 블록은 상이한 GPU 쉐이더에 의해 렌더링되는,
방법.
제21항 내지 제28항 중 어느 한 항에 있어서,
상기 버퍼는 상기 패치를 캐시 메모리에 저장하는 유니폼 버퍼(uniform buffer)를 포함하는,
방법.
제21항 내지 제29항 중 어느 한 항에 있어서,
상기 버퍼는 상기 정점을 저장하는 정점 버퍼를 포함하는,
방법.
제21항 내지 제30항 중 어느 한 항에 있어서,
상기 GPU 쉐이더는 지오메트리 쉐이더, 컴퓨트 쉐이더(compute shader), 또는 이들의 조합을 포함하는,
방법.
제21항 내지 제31항 중 어느 한 항에 있어서,
지오메트리 쉐이더에 의해 방출되는 정점의 최대 개수는 점유 해상도(occupancy resolution) 곱하기 레이어의 개수와 동일한,
방법.
제21항 내지 제32항 중 어느 한 항에 있어서,
변환 매트릭스를 통해 상기 패치를 상기 정점 상으로 렌더링하는 단계는, 증강 현실(augmented reality; AR) 콘텐츠를 생성하기 위해, 상기 패치 및 상기 정점을 레코딩된 이미지 상으로 렌더링하는 단계를 포함하는,
방법.
제21항 내지 제33항 중 어느 한 항에 있어서,
상기 변환 매트릭스는 아틀라스 공간으로부터 패치 공간으로 변환하기 위한 캔버스 대 패치 매트릭스(canvas to patch matrix), 모델 공간으로부터 세계 공간(world space)으로 변환하기 위한 모델 매트릭스, 상기 세계 공간으로부터 카메라 공간으로 변환하기 위한 카메라 뷰 매트릭스, 및 상기 카메라 공간으로부터 스크린 공간으로 변환하기 위한 투영 매트릭스를 포함하는,
방법.
제21항 내지 제34항 중 어느 한 항에 있어서,
상기 패치를 상기 정점 상으로 렌더링하는 단계는 상기 패치를 상기 정점의 포인트 상으로 투영하는 단계를 포함하는,
방법.
제21항 내지 제35항 중 어느 한 항에 있어서,
상기 3D 포인트 클라우드의 상기 2D 이미지를 스크린을 향해 포워딩하는 단계를 더 포함하는,
방법.