KR20230011406A

KR20230011406A - 비디오 기반 포인트 클라우드 코딩을 위한 조건적 재채색

Info

Publication number: KR20230011406A
Application number: KR1020227044242A
Authority: KR
Inventors: 시앙 장; 웬 가오; 샨 리우; 웨이웨이 펑; 빙 졘; 빙 ??
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2021-06-04
Filing date: 2021-10-12
Publication date: 2023-01-20
Also published as: WO2022256032A1; EP4128750A1; CN115997380A; EP4128750A4; US20220394293A1; JP2023533416A; US11979606B2

Abstract

비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 방법 및 장치는 소스 포인트 클라우드를 획득하고; 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하고; 재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하고, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일하고; 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하고; 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하고; 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하는 것을 포함한다.

Description

비디오 기반 포인트 클라우드 코딩을 위한 조건적 재채색

본 출원은 2021년 6월 4일에 출원된 미국 가출원 번호 제63/197,196호 및 2021년 10월 6일에 출원된 미국 출원 번호 제17/495,301호의 우선권을 주장하고, 그 개시내용은 그 전체가 참조로 본원에 포함된다.

본 개시내용은 진보된 비디오 코딩 기술의 세트, 보다 구체적으로는 조건적 재채색 컬러 변환(recolor color transfer)을 포함하는 비디오 기반 포인트 클라우드 압축에 관한 것이다.

세계의 진보된 3-차원(3D) 표현은 보다 몰입감 있는 형태의 상호작용과 통신을 가능하게 할 수 있다. 또한 이는 기계가 세상을 이해하고, 해석하고 탐색할 수 있게 한다. 포인트 클라우드는 세계의 3D 표현으로 널리 사용되었다. 예를 들어, 포인트 클라우드는 객체 검출 및 위치파악을 위해 자율 주행 차량; 매핑을 위한 지리 정보 시스템(GIS) 및 문화 유산 객체 및 컬렉션 등을 시각화하고 보관하기 위한 문화 유산에서 사용될 수 있다. 포인트 클라우드 데이터와 연관된 여러 사용 사례가 식별되었고, 포인트 클라우드 표현 및 압축에 대한 일부 대응 요건이 개발되었다.

포인트 클라우드는 고차원 포인트 세트, 예를 들어 각각 3D 포지션 정보 및 컬러, 반사율 등과 같은 추가 속성을 각각 포함하는 3차원(3D)을 포함한다. 포인트 클라우드는 다수의 카메라들 및 깊이 센서, 또는 다양한 설정에서 라이다(Lidar)를 사용하여 캡처될 수 있거나, 원래 장면을 사실적으로 표현하기 위해 수천에서 수십억 개의 포인트로 구성될 수 있다.

더 빠른 송신 또는 저장 감소를 위해 포인트 클라우드를 나타내는 데 필요한 데이터 양을 감소시키기 위해서 압축 기술이 필요하다. ISO/IEC MPEG(JTC 1/SC 29/WG 11)은 정적 또는 동적 클라우드에 대한 압축 기법들을 표준화하기 위해 애드-혹 그룹(MPEG-PCC)을 생성하였다.

실시예에서, 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 방법은 적어도 하나의 프로세서에 의해 수행되고: 소스 포인트 클라우드를 획득하는 단계; 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하는 단계; 재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하는 단계로서, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일한, 상기 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하는 단계; 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하는 단계; 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하는 단계; 및 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하는 단계를 포함한다.

실시예에서, 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하기 위한 장치는 프로그램 코드를 저장하도록 구성된 적어도 하나의 메모리; 및 프로그램 코드를 판독하고 프로그램 코드에 의해 명령된 바와 같이 동작하도록 구성된 적어도 하나의 프로세서를 포함하고, 프로그램 코드는: 적어도 하나의 프로세서가 소스 포인트 클라우드를 획득하게 하도록 구성된 제1 획득 코드; 적어도 하나의 프로세서가 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하게 하도록 구성된 제1 생성 코드; 적어도 하나의 프로세서가 재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하게 하도록 구성된 제2 생성 코드로서, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일한, 상기 제2 생성 코드; 적어도 하나의 프로세서가 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하게 하도록 구성된 제2 획득 코드; 적어도 하나의 프로세서가 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하게 하도록 구성된 선택 코드; 및 적어도 하나의 프로세서가 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하게 하도록 구성된 제3 생성 코드를 포함한다.

실시예에서, 비일시적 컴퓨터-판독가능 매체는 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 컴퓨터 명령을 저장하고, 컴퓨터 명령은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서가: 소스 포인트 클라우드를 획득하게 하고; 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하게 하고; 재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하게 하고, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일하고; 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하게 하고; 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하게 하고; 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하게 한다.

개시된 주제의 추가 특징, 성질, 및 다양한 장점은 이하 상세한 설명 및 첨부 도면으로부터 더 명백하게 될 것이다.
도 1은 실시예에 따른 통신 시스템의 단순화된 블록도의 개략도이다.
도 2는 실시예에 따른 스트리밍 시스템의 간략화된 블록도의 개략도이다.
도 3은 실시예에 따른 비디오 인코더의 간략화된 블록도의 개략도이다.
도 4는 실시예에 따른 비디오 디코더의 간략화된 블록도의 개략도이다.
도 5는 실시예에 따라 소스 포인트 클라우드와 재구성된 포인트 클라우드 사이의 순방향 검색의 예를 예시한다.
도 6은 실시예에 따른 소스 포인트 클라우드와 재구성된 포인트 클라우드 사이의 역방향 검색의 예를 예시한다.
도 7a는 실시예에 따라 재채색을 갖는 인코더 파이프라인의 예를 예시한다.
도 7b는 실시예에 따라 재채색 없는 인코더 파이프라인의 예를 예시한다.
도 8은 실시예에 따라 부분적으로 점유된 블록의 예를 예시한다.
도 9a-도 9b는 실시예에 의해 수행되는 프로세스를 예시하는 흐름도이다.
도 10은 실시예에 따른 디바이스를 예시하는 도면이다.
도 11은 실시예를 구현하기에 적합한 컴퓨터 시스템의 다이어그램이다.

비디오-기반 포인트 클라우드 압축(V-PCC) 이면의 고려사항은 기존 비디오 코덱을 활용하여 동적 포인트 클라우드의 기하구조, 점유 및 텍스처를 3개의 개별 비디오 시퀀스로 압축하는 것이다. 3개의 비디오 시퀀스를 해석하는 데 필요한 추가 메타데이터는 개별적으로 압축될 수 있다. 전체 비트스트림의 작은 부분은 소프트웨어 구현을 사용하여 효율적으로 인코딩/디코딩될 수 있는 메타데이터이다. 대부분의 정보는 비디오 코덱에 의해 처리될 수 있다.

본 발명의 실시예는 반복 평활화 프레임워크에서 과도한-평활화를 피하기 위한 어닐링 반복 기하구조 평활화에 관한 것이다. 본 발명의 실시예는 순수 중앙값을 사용하는 계산 복잡성을 감소시키는 것을 목표로 하는 기준점을 도출하기 위해 평균 및 중앙값 통계의 조합을 사용하는 것에 관한 것이다.

도 1-도 4를 참조하여, 본 개시내용의 인코딩 및 디코딩 구조를 구현하기 위한 본 개시내용의 실시예가 설명된다. 본 개시내용의 인코딩 및 디코딩 구조는 위에서 설명한 V-PCC의 양태를 구현할 수 있다.

도 1은 본 개시내용의 실시예에 따른 통신 시스템(100)의 간략화된 블록도를 예시한다. 시스템(100)은 네트워크(150)를 통해 상호연결된 적어도 2개의 단말(110, 120)을 포함할 수 있다. 데이터의 단방향 전송을 위해, 제1 단말(110)은 네트워크(150)를 통해 다른 단말(120)로의 전송을 위해 로컬 위치에서 비디오 데이터를 코딩할 수 있다. 제2 단말(120)은 네트워크(150)로부터 다른 단말의 코딩된 비디오 데이터를 수신하고, 코딩된 데이터를 디코딩하고 복구된 비디오 데이터를 디스플레이할 수 있다. 단방향 데이터 전송은 미디어 서빙 애플리케이션 등에서 일반적일 수 있다.

도 1은 예를 들어 화상 회의 동안 발생할 수 있는 코딩된 비디오의 양방향 전송을 지원하기 위해 제공된 제2 쌍의 단말(130, 140)을 예시한다. 데이터의 양방향 전송을 위해, 각 단말(130, 140)은 네트워크(150)를 통해 다른 단말로의 전송을 위해 로컬 위치에서 캡처된 비디오 데이터를 코딩할 수 있다. 각각의 단말(130, 140)은 또한 다른 단말에 의해 전송된 코딩된 비디오 데이터를 수신할 수 있고, 코딩된 데이터를 디코딩할 수 있고 로컬 디스플레이 디바이스에서 복구된 비디오 데이터를 디스플레이할 수 있다.

도 1에서, 단말(110-140)은 예를 들어, 서버, 개인용 컴퓨터, 및 스마트폰 및/또는 임의의 다른 유형의 단말일 수 있다. 예를 들어, 단말(110-140)은 랩톱 컴퓨터, 태블릿 컴퓨터, 미디어 플레이어 및/또는 전용 화상 회의 장비일 수 있다. 네트워크(150)는 예를 들어 유선 및/또는 무선 통신 네트워크를 포함하여 단말(110-140) 간에 코딩된 비디오 데이터를 전달하는 임의의 수의 네트워크를 나타낸다. 통신 네트워크(150)는 회선-교환 및/또는 패킷-교환 채널에서 데이터를 교환할 수 있다. 대표적인 네트워크는 원격통신 네트워크, 근거리 통신망, 광역 네트워크 , 및/또는 인터넷을 포함한다. 본 논의의 목적을 위해, 네트워크(150)의 아키텍처 및 토폴로지는 이하에서 본원에서 설명되지 않는 한 본 개시내용의 동작에 중요하지 않을 수 있다.

도 2는 개시된 주제에 대한 애플리케이션에 대한 예로서, 스트리밍 환경에서 비디오 인코더 및 비디오 디코더의 배치를 예시한다. 개시된 주제는 예를 들어 화상 회의, 디지털 TV, CD, DVD, 메모리 스틱 등을 포함하는 디지털 미디어에 압축된 비디오의 저장 등을 포함하는 다른 비디오 가능 애플리케이션에 사용될 수 있다.

도 2에 예시된 바와 같이, 스트리밍 시스템(200)은 비디오 소스(201) 및 인코더(203)를 포함하는 캡처 서브시스템(213)을 포함할 수 있다. 스트리밍 시스템(200)은 적어도 하나의 스트리밍 서버(205) 및/또는 적어도 하나의 스트리밍 클라이언트(206)를 더 포함할 수 있다.

비디오 소스(201)는 예를 들어 3D 비디오에 대응하는 3D 포인트 클라우드를 포함하는 스트림(202)을 생성할 수 있다. 비디오 소스(201)는 예를 들어 3D 센서(예를 들어 깊이 센서) 또는 3D 이미징 기술(예를 들어 디지털 카메라(들)), 및 3D 센서 또는 3D 이미징 기술로부터 수신된 데이터를 사용하여 3D 포인트 클라우드를 생성하도록 구성된 컴퓨팅 디바이스를 포함할 수 있다. 인코딩된 비디오 비트스트림과 비교할 때 높은 데이터 볼륨을 가질 수 있는 샘플 스트림(202)은 비디오 소스(201)에 결합된 인코더(203)에 의해 프로세싱될 수 있다. 인코더(203)는 하드웨어, 소프트웨어 또는 이들의 조합을 포함하여 아래에서 더 상세히 설명되는 바와 같이 개시된 주제의 양태를 가능하게 하거나 구현할 수 있다. 인코더(203)는 또한 인코딩된 비디오 비트스트림(204)을 생성할 수 있다. 비압축 스트림(202)과 비교할 때 더 낮은 데이터 볼륨을 가질 수 있는 인코딩된 비디오 비트스트림(204)은 미래 사용을 위해 스트리밍 서버(205)에 저장될 수 있다. 하나 이상의 스트리밍 클라이언트(206)는 인코딩된 비디오 비트스트림(204)의 카피일 수 있는 비디오 비트스트림(209)을 검색하기 위해 스트리밍 서버(205)에 액세스할 수 있다.

스트리밍 클라이언트(206)는 비디오 디코더(210) 및 디스플레이(212)를 포함할 수 있다. 비디오 디코더(210)는 예를 들어 인코딩된 비디오 비트스트림(204)의 인입 카피인 비디오 비트스트림(209)을 디코딩할 수 있고, 디스플레이(212) 또는 다른 렌더링 디바이스(도시되지 않음) 상에 렌더링될 수 있는 인출 비디오 샘플 스트림(211)을 생성할 수 있다. 일부 스트리밍 시스템에서, 비디오 비트스트림(204, 209)은 소정 비디오 코딩/압축 표준에 따라 인코딩될 수 있다. 이러한 표준의 예는 ITU-T Recommendation H.265, VVC(Versatile Video Coding), MPEG/V-PCC를 포함하지만, 이에 제한되지 않는다.

도 3-도 4를 참조하여, 본 개시내용의 실시예에 의해 수행될 수 있는 V-PCC의 일부 양태가 아래에 설명된다.

도 3은 본 개시내용의 실시예에 따른 비디오 인코더(203)의 예시적인 기능 블록도를 예시한다.

도 3에 예시된 바와 같이, 비디오 인코더(203)는 포인트 클라우드 프레임(들)(350)을 수신할 수 있고, 포인트 클라우드 프레임(350)에 기반하여 기하구조 이미지(352), 텍스처 이미지(356) 및 점유 맵(334)을 생성할 수 있다. 비디오 인코더(203)는 기하구조 이미지(352)를 압축된 기하구조 이미지(362)로, 텍스처 이미지(356)를 압축된 텍스처 이미지(364)로, 점유 맵(334)을 압축된 점유 맵(372)으로 압축할 수 있다. 비디오 인코더(203)의 멀티플렉서(328)는 압축된 기하구조 이미지(362), 압축된 텍스처 이미지(364) 및 압축된 점유 맵(372)을 포함하는 압축된 비트스트림(374)을 형성할 수 있다.

더 구체적으로, 실시예에서, 비디오 인코더(203)는 포인트 클라우드 프레임(350)을 패치로 세그먼트화하는 패치 생성 모듈(302)을 포함할 수 있다. 패치는 V-PCC의 유용한 엔터티이다. 패치 생성 프로세스는 포인트 클라우드 프레임(350)을 매끄러운 경계를 갖는 최소 수의 패치로 분해하는 동시에, 재구성 오류를 최소화하는 것을 포함한다. 본 개시내용의 인코더는 그러한 분해를 생성하기 위해 다양한 방법을 구현할 수 있다.

비디오 인코더(203)는 패킹 프로세스를 수행하는 패치 패킹 모듈(304)을 포함할 수 있다. 패킹 프로세스는 사용되지 않는 공간을 최소화하고 그리드의 모든 MxM(예를 들어, 16x16) 블록이 고유한 패치와 연결되는 것을 보장하면서 추출된 패치를 2D 그리드에 매핑하는 것을 포함한다. 효율적인 패치 패킹은 사용되지 않는 공간을 최소화하거나 시간적 일관성을 보장함으로써 압축 효율성에 직접적인 영향을 미친다. 패치 패킹 모듈(304)은 점유 맵(334)을 생성할 수 있다.

비디오 인코더(203)는 기하구조 이미지 생성 모듈(306) 및 텍스처 이미지 생성 모듈(308)을 포함할 수 있다. 다수의 포인트가 동일한 샘플에 투영되는 경우를 더 잘 처리하기 위해, 각 패치는 계층으로 지칭되는 2개의 이미지에 투영될 수 있다. 예를 들어, 기하구조 이미지 생성 모듈(306) 및 텍스처 이미지 생성 모듈(308)은 포인트 클라우드의 기하구조 및 텍스처를 이미지(일명 계층)로 저장하기 위해 패치 패킹 모듈(304)의 패킹 프로세스 동안 계산된 3D 대 2D 매핑을 이용할 수 있다. 생성된 이미지/계층은 비디오 프레임(들)로 저장되고 파라미터로 제공된 구성에 따라 비디오 코덱(예를 들어, HM 비디오 코덱)을 사용하여 압축될 수 있다.

실시예에서, 입력 포인트 클라우드 프레임(350) 및 점유 맵(334)에 기반하여, 기하구조 이미지 생성 모듈(306)은 기하구조 이미지(352)를 생성하고 텍스처 이미지 생성 모듈(308)은 텍스처 이미지(356)를 생성한다. 실시예에서, 기하구조 이미지(352)는 YUV420-8비트 포맷에서 WxH의 단색 프레임에 의해 표현될 수 있다. 실시예에서, 점유 맵(334) 이미지는 그리드의 각 셀에 대해 셀이 빈 공간에 속하는지 포인트 클라우드에 속하는지 여부를 나타내는 이진 맵으로 구성된다. 텍스처 이미지(356)를 생성하기 위해, 텍스처 생성 모듈(308)은 재샘플링된 포인트와 연관될 컬러를 계산하기 위해 재구성된/평활화된 기하구조(358)를 이용한다.

비디오 인코더(203)는 또한 패딩된 기하구조 이미지(354) 및 패딩된 텍스처 이미지(360)를 형성하기 위하여, 기하구조 이미지(352) 및 텍스처 이미지(356)를 각각 패딩하기 위한 이미지 패딩 모듈(314) 및 이미지 패딩 모듈(316)을 포함할 수 있다. 이미지 패딩(일명, 배경 채우기)은 단순히 중복 정보로 이미지의 사용되지 않은 공간을 채운다. 우수한 배경 채우기는 비트 레이트를 최소한으로 증가시키면서 패치 경계 주변에 심각한 코딩 왜곡을 도입하지 않는 것이다. 이미지 패딩 모듈(314) 및 이미지 패딩 모듈(316)은 각각 점유 맵(334)을 사용하여 패딩된 기하구조 이미지(354) 및 패딩된 텍스처 이미지(360)를 형성할 수 있다. 실시예에서, 비디오 인코더(203)는 패딩된 텍스처 이미지(360)를 형성하기 위해 그룹 확장 모듈(320)을 포함할 수 있다.

비디오 인코더(203)는 패딩된 기하구조 이미지(354) 및 패딩된 텍스처 이미지(360)를 각각 압축된 기하구조 이미지(362) 및 압축된 텍스처 이미지(364)로 각각 압축하기 위한 비디오 압축 모듈(322) 및 비디오 압축 모듈(324)을 포함할 수 있다.

비디오 인코더(203)는 점유 맵(334)의 무손실 인코딩(366)을 위한 엔트로피 압축 모듈(318) 및 점유 맵(334)의 손실 인코딩(368)을 위한 비디오 압축 모듈(326)을 포함할 수 있다.

실시예에서, 비디오 인코더(203)는 비디오 압축 모듈(322) 및 패치 정보(332)에 의해 제공되는 재구성된 기하구조 이미지(365)를 사용하여 평활화된 기하구조(358)를 생성하기 위한 평활화 모듈(310)을 포함할 수 있다. 평활화 모듈(310)의 평활화 절차는 압축 아티팩트로 인해 패치 경계에서 발생할 수 있는 잠재적 불연속성을 완화하는 것을 목표로 할 수 있다. 평활화된 기하구조(358)는 텍스처 이미지(356)를 생성하기 위해 텍스처 이미지 생성 모듈(308)에 의해 사용될 수 있다.

비디오 인코더(203)는 또한 멀티플렉서(328)에 의해 압축된 비트스트림(374)에 제공되는 압축된 보조 패치 정보(370)를 형성하기 위한 보조 패치 정보 압축 모듈(312)을 포함할 수 있다.

도 4는 본 발명의 실시예에 따른 비디오 디코더(210)의 예시적인 기능 블록도를 예시한다.

도 4에 예시된 바와 같이, 비디오 디코더(210)는 비디오 인코더(203)로부터 코딩된 비트스트림(374)을 수신하여 압축된 텍스처 이미지(362), 압축된 기하구조 이미지(364), 압축된 점유 맵(372) 및 압축된 보조 패치 정보(370)를 획득할 수 있다. 비디오 디코더(210)는 압축된 텍스처 이미지(362), 압축된 기하구조 이미지(364), 압축된 점유 맵(372) 및 압축된 보조 패치 정보(370)를 디코딩하여 압축해제된 텍스처 이미지(460), 압축해제된 기하구조 이미지(462), 압축해제된 점유 맵(464), 및 압축해제된 보조 패치 정보(466)를 각각 획득할 수 있다. 이어서, 비디오 디코더(210)는 압축해제된 텍스처 이미지(460), 압축해제된 기하구조 이미지(462), 압축해제된 점유 맵(464) 및 압축해제된 보조 패치 정보(466)에 기반하여 재구성된 포인트 클라우드(474)를 생성할 수 있다.

실시예에서, 비디오 디코더(210)는 수신된 압축된 비트스트림(374)의 압축된 텍스처 이미지(362), 압축된 기하구조 이미지(364), 압축된 점유 맵(372) 및 압축된 보조 패치 정보(370)를 분리하는 디멀티플렉서(402)를 포함할 수 있다.

비디오 디코더(210)는 압축된 텍스처 이미지(362), 압축된 기하구조 이미지(364), 압축된 점유 맵(372), 및 압축된 보조 패치 정보(370)를 각각 디코딩하는 비디오 압축해제 모듈(404), 비디오 압축해제 모듈(406), 점유 맵 압축해제 모듈(408) 및 보조 패치 정보 압축해제 모듈(410)을 포함할 수 있다.

비디오 디코더(210)는 압축해제된 기하구조 이미지(462), 압축해제된 점유 맵(464) 및 압축해제된 보조 패치 정보(466)에 기반하여 재구성된 (3차원) 기하구조(468)를 획득하는 기하구조 재구성 모듈(412)을 포함할 수 있다.

비디오 디코더(210)는 평활화된 기하구조(470)를 획득하기 위해 재구성된 기하구조(468)를 평활화하는 평활화 모듈(414)을 포함할 수 있다. 평활화 절차는 압축 아티팩트로 인해 패치 경계에서 발생할 수 있는 잠재적인 불연속성을 완화하는 것을 목표로 할 수 있다.

비디오 디코더(210)는 압축해제된 텍스처 이미지(460) 및 평활화된 기하구조(470)에 기반하여 재구성된 텍스처(472)를 획득하기 위한 텍스처 재구성 모듈(416)을 포함할 수 있다.

비디오 디코더(210)는 재구성된 포인트 클라우드(474)를 획득하기 위해 재구성된 텍스처(472)의 컬러를 평활화하는 컬러 평활화 모듈(418)을 포함할 수 있다. 3D 공간에서 이웃하지 않은 패치는 종종 2D 비디오에서 나란히 패키징된다. 이는 인접하지 않은 패치의 픽셀 값이 블록-기반 비디오 코덱에 의해 혼합될 수 있음을 의미한다. 컬러 평활화 모듈(418)의 컬러 평활화는 패치 경계에 나타나는 가시적 아티팩트를 감소시키는 것을 목표로 할 수 있다.

비디오-기반 포인트 클라우드 압축(V-PCC)에서 재채색

V-PCC에 대응할 수 있는 MPEG PCC 테스트 모델 카테고리 2(TMC2) 모델에서, 컬러 변환으로 지칭될 수 있는 재채색 프로세스는 기하구조가 손실 코딩되고 중복 포지션이 병합될 때 인코더-측에서 적용될 수 있다. 재채색 알고리즘의 예는 도 5 및 도 6을 참조하여 아래에 주어진다.

재구성된 포인트 클라우드(504)에 포함된 소스 포인트 클라우드(502), 속성 및 타깃 포인트가 주어졌을 때, 컬러 변환 절차, 즉 재채색 프로세스는 속성 왜곡을 최소화하는 재구성된 포인트 클라우드의 속성 값을 결정할 수 있다. 접근법은 다음과 같이 구현할 수 있다:

각 타깃 포인트(

)에 대해:

1- 소스 포인트 클라우드(502)에서

최근접 이웃 포인트를

로 찾고

로 표시된 포인트 세트를 생성한다. 이는 도 5에 예시된 바와 같은 순방향 검색에 대응할 수 있다.

2-

이 재구성된 포인트 클라우드(504)에서

최근접 이웃 포인트들의 세트에 속하도록 소스 포인트 클라우드(502)에서 포인트 세트를 찾는다.

에 의해 이 포인트의 세트를 표시한다. 이는 도 6에 예시된 바와 같은 순방향 검색에 대응할 수 있다.

3- 하기에 의해

및

포인트의 거리-가중 평균을 계산한다:

방정식(1)

여기서 Δ(a,b)는 포인트(a 및 b) 사이의 유클리드 거리를 나타내고, c(q)는 포인트(q)점의 컬러를 나타낸다.

4-

및

의 평균(또는 각 세트의 포인트 수를 가중치로 한 가중 평균)을 계산하여 이를 중심 컬러로 사용한다.

5- 일부 실시예에서, 중심 컬러에 대한 포인트의 절대 차이가 임계값(th_c)보다 큰 경우 포인트를 제외하기 위해 중심 포인트로부터 역방향 검색이 사용될 수 있다.

6- 일부 실시예에서,

및

의 평균(또는 각 세트의 포인트 수를 가중치로 한 가중 평균)은 업데이트되어

로 전달될 수 있다.

TMC2의 현재 설계에서, KD(K-Dimension)-트리 데이터 구조가 최근접 이웃 검색에 활용되고 재채색 동작이 재구성된 포인트 클라우드의 모든 지점에 적용되기 때문에 재채색 프로세스는 다소 복잡할 수 있다.

TMC2의 현재 설계에서, KD(K-Dimension)-트리 데이터 구조가 최근접 이웃 검색에 활용되고 재채색 동작이 재구성된 포인트 클라우드의 모든 지점에 적용되기 때문에 재채색 프로세스는 다소 복잡할 수 있다. 실시예에서, 원래 포인트 클라우드에서 직접 텍스처 맵을 생성함으로써 전체 재채색 프로세스가 바이패스될 수 있다. 실시예에서, 재채색 프로세스는 조건적으로 적용될 수 있다. 예를 들어, 재채색 프로세스는 손실 기하구조 압축으로 인해 더 큰 기하구조 왜곡을 갖는 영역에 적용될 수 있다.

본원에 개시된 실시예는 개별적으로 또는 임의의 순서로 조합되어 사용될 수 있다. 또한, 실시예 각각, 예를 들어 인코더 및 디코더는 프로세싱 회로(예를 들어, 하나 이상의 프로세서 또는 하나 이상의 집적 회로)에 의해 구현될 수 있다. 일 예에서, 하나 이상의 프로세서는 비-일시적 컴퓨터-판독가능 매체에 저장된 프로그램을 실행한다.

바이패스 재채색

도 7a에 도시된 바와 같이, V-PCC에서, 재채색은 기하구조가 손실 코딩되고, 재구성된 포인트 클라우드의 컬러가 재계산되거나, 예를 들어 재구성된 기하구조에 기반하여 보간될 때 적용될 수 있다. 이어서, 텍스처 맵은 재채색된 포인트 클라우드에 기반하여 생성된다.

예를 들어, 도 7a에 보여질 수 있는 바와 같이, 재채색이 사용되는 프로세스(700A)에서, 점유 맵(711) 및 기하구조 맵(712)은 입력 포인트 클라우드(710)로부터 생성될 수 있다. 이어서 재구성된 점유 맵(713) 및 재구성된 기하구조 맵(714)은 손실 코딩을 사용하여 생성될 수 있고, 기하구조-재구성 포인트 클라우드(715)는 재구성된 점유 맵(713) 및 재구성된 기하구조 맵(714)에 기반하여 생성될 수 있다. 이 기하구조-재구성 포인트 클라우드(715)는 재채색된 포인트 클라우드(716)를 생성하기 위해 입력 포인트 클라우드(710)를 사용하여 재채색될 수 있고, 이 재채색된 포인트 클라우드(716)는 텍스처 맵(717)을 생성하기 위해 점유 맵(711)과 함께 사용될 수 있다. 재구성된 텍스처 맵(718)은 손실 코딩을 사용하여 생성될 수 있고, 재구성된 포인트 클라우드(719)는 재구성된 텍스처 맵(718) 및 기하구조-재구성 포인트 클라우드(715)를 사용하여 생성될 수 있다.

실시예에서, 텍스처 맵은 기하구조 맵을 생성할 때 입력 포인트 클라우드로부터 직접 생성될 수 있고, 이어서 생성된 점유, 기하구조 및 텍스처 맵은 코딩 및 재구성될 수 있다. 이의 예는 도 7b에 예시되고, 재채색 프로세스는 완전히 제거될 수 있고 전체 워크플로는 훨씬 단순화된다.

예를 들어 도 7b에서 볼 수 있는 바와 같이, 재채색이 사용되지 않는 프로세스(700B)에서, 점유 맵(721), 기하구조 맵(722) 및 텍스처 맵(723)은 입력 포인트 클라우드(710)로부터 직접 생성될 수 있고, 재구성된 점유 맵(721), 재구성된 기하구조 맵(722) 및 재구성된 텍스처 맵(723)은 손실 코딩을 사용하여 생성될 수 있다. 이어서, 재구성된 포인트 클라우드(727)는 재구성된 점유 맵(721), 재구성된 기하구조 맵(722) 및 재구성된 텍스처 맵(723)을 사용하여 생성될 수 있다.

실시예에서, 텍스처 맵은 기하구조 맵으로 생성될 수 있다. 텍스처 맵은 기하구조 맵과 동일한 해상도를 가질 수 있고, 동일한 아틀라스 정보를 공유한다. T_xy가 텍스처 맵에서 점유된 픽셀이고 G_x가 기하구조 맵에서 대응 픽셀이고, 3D 공간에서 동일한 포인트(p)에 대응한다고 가정한다. 이어서, p의 원래 컬러 값은 T_xy의 값으로 할당될 수 있다.

점유 맵이 손실 코딩된 경우, 바이패스 재채색에 의해 생성된 텍스처 맵은 재구성된 점유 맵에 기반하여 추가 프로세싱될 수 있다. 이에 따라, 재구성된 풀-사이즈 점유 맵에서 점유되지만 원래 풀-사이즈 점유 맵에서 점유되지 않는 "반-점유" 픽셀은 일부 값으로 채워질 수 있다.

점유 맵의 왜곡은 점유 맵 다운-샘플링과 점유 맵의 손실 압축이라는 2개의 주요 요인에 의해 야기될 수 있다. 점유 맵이 B×B 블록의 정밀도로 무손실 코딩된다고 가정하고, 여기서 B>1은 정수이다. 이 경우, 점유 맵 블록이 적어도 하나의 포인트에 의해 점유되면, 재구성된 점유 맵에서 블록의 모든 포인트가 점유될 것이다.

B=4인 예를 고려한다. 도 8에 도시된 바와 같이, 4×4 블록은 부분적으로 점유되고, 여기서 "X"로 표시된 픽셀은 점유되고 텍스처 맵에서 대응 픽셀은 유효하다. 나머지 픽셀은, 원래 점유 맵에서 점유되지 않지만 재구성된 점유 맵에서 점유되기 때문에 "반-점유"로 정의된다. 따라서, 재구성된 블록에서, "반-점유" 픽셀은 점유된 것으로 간주될 것이다. 실시예에서, "반-점유" 픽셀은 재구성 품질을 개선하기 위해 적절한 값으로 채워질 수 있다. 채워진 값은 이미지에서 점유된 픽셀에 의해 결정될 수 있다.

실시예에서, "반-점유" 픽셀의 채우기 프로세스는 비-중첩 블록 단위로 수행된다. 각 B×B 블록에 대해, "반-점유" 픽셀은 동일한 블록에서 점유된 픽셀의 평균 값으로 채워진다.

실시예에서, "반-점유" 픽셀의 채우기 프로세스는 비-중첩 블록 단위로 수행된다. 각 B×B 블록에 대해, "반-점유" 픽셀은 동일한 블록에서 점유된 최근접 이웃 수의 평균 값으로 채워진다. 평균은 채워진 픽셀까지의 거리에 의해 가중될 수 있다.

실시예에서, "반-점유" 픽셀의 채우기 프로세스는 전체 이미지에 대해 수행된다. 각 "반-점유" 픽셀에 대해서는 이미지에서 점유된 최근접 이웃 수의 평균값이 채워질 수 있다. 평균은 채워진 픽셀까지의 거리에 의해 가중될 수 있다.

조건적 재채색

조건적 재채색은 일반 재채색과 바이패스 재채색 방식 사이의 균형을 포함할 수 있다. 실시예에서, 텍스처 맵의 픽셀 중 일부는 바이패스 재채색 방식에 의해 원래 포인트 클라우드에서 직접 도출될 수 있고, 픽셀의 나머지는 일반 재채색 알고리즘에 의해 재구성된 포인트 클라우드에서 도출될 수 있다. 픽셀에 적용되는 방법에 대한 판정은 3D에서 대응 포인트의 기하구조 왜곡에 의존할 수 있다. 예를 들어, 기하구조 왜곡이 크면, 일반 재채색이 적용되고, 그렇지 않으면 바이패스 재채색이 적용된다. 기하구조 왜곡이 기하구조 맵의 왜곡과 점유 맵의 왜곡으로 구성되는 것이 유의된다.

실시예에서, 기하구조, 예를 들어 기하구조 및 점유 맵이 무손실 코딩된 경우, 바이패스 재채색은 텍스처 맵의 모든 픽셀에 적용될 수 있고 일반 재채색 방식은 생략될 수 있다.

실시예에서, "반-점유" 픽셀은 일반 재채색 방식에 의해 프로세싱될 수 있다.

실시예에서, 적어도 "반-점유된" 픽셀을 포함하는 B×B 블록의 모든 픽셀은 일반 재채색 방식에 의해 프로세싱될 수 있다.

실시예에서, 원래 기하구조 맵과 압축 후 대응하는 재구성된 기하구조 맵은 비교될 수 있다. 주어진 2D 포지션에 대해, 기하구조 맵의 대응 픽셀 값이 압축으로 인해 크게 다른 경우, 텍스처 맵의 대응 픽셀은 일반 재채색 방식으로 프로세싱될 수 있고; 그렇지 않으면, 바이패스 재채색 방식으로 프로세싱될 수 있다. 임계값은, 기하구조 변경이 큰지 여부를 결정하기 위해 정의될 수 있다. 임계값은 모든 시퀀스에 대해 고정될 수 있거나, 모든 시퀀스에 대해 변경될 수 있거나, 모든 시퀀스에 대해 적응적으로 업데이트될 수 있다. 임계값은 높은 레벨의 신택스 정보 또는 메타 데이터로서 비트스트림에서 송신될 수 있다.

본원에 개시된 실시예의 조건의 임의의 조합이 적용될 수 있음이 유의된다.

따라서, 실시예에서, 텍스처 맵은 재구성된 포인트 클라우드로부터 재채색 없이 입력 포인트 클라우드로부터 직접 생성될 수 있고, 이는 바이패스 재채색 방식으로 지칭될 수 있다. 점유 맵이 손실 코딩된 경우, 바이패스 재채색에 의해 생성된 텍스처 맵은 재구성된 점유 맵에 기반하여 추가 프로세싱될 수 있다. 목표는 재구성된 풀-사이즈 점유 맵에서 점유되지만 원래 풀-사이즈 점유 맵에서 점유되지 않는 "반-점유" 픽셀을 일부 값으로 채우는 것일 수 있다. 채워진 값은 이미지에서 점유된 픽셀에 의해 결정될 수 있다. "반-점유" 픽셀의 채우기 프로세스는 B×B 비-중첩 블록 단위로 수행될 수 있다. "반-점유" 픽셀의 채우기 프로세스는 전체 이미지에 대해 수행될 수 있다.

실시예에서, 텍스처 맵의 픽셀 중 일부는 바이패스 재채색 방식에 의해 원래 포인트 클라우드에서 직접 도출될 수 있고, 픽셀의 나머지는 일반 재채색 알고리즘에 의해 재구성된 포인트 클라우드에서 도출될 수 있고, 이는 조건적 재채색 방식으로 지칭될 수 있다. 픽셀에 적용되는 방법에 대한 판정은 3D에서 대응 포인트의 기하구조 왜곡에 의존할 수 있다. 기하구조 왜곡이 크면, 일반 재채색이 적용될 수 있고, 그렇지 않으면 바이패스 재채색이 적용될 수 있다. 기하구조 왜곡이 기하구조 맵의 왜곡과 점유 맵의 왜곡을 포함할 수 있는 것이 유의된다.

도 9a는 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 방법(900A)의 흐름도이다. 일부 구현에서, 도 9a의 하나 이상의 프로세스 블록은 인코더(203)에 의해 수행될 수 있다. 일부 구현에서, 도 9a의 하나 이상의 프로세스 블록은 디코더(210)와 같이 인코더(203)와 별개이거나 인코더(203)를 포함하는 다른 디바이스 또는 디바이스 그룹에 의해 수행될 수 있다.

도 9a에 도시된 바와 같이, 동작(911)에서, 방법(900A)은 소스 포인트 클라우드를 획득하는 것을 포함할 수 있다.

동작(912)에서, 방법(900A)은 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하는 것을 포함할 수 있다.

동작(913)에서, 방법(900A)은 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하는 것을 포함할 수 있고, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일하다. 실시예에서, 재구성된 기하구조 맵 및 재구성된 텍스처 맵은 재채색을 사용하지 않고 생성될 수 있다.

동작(914)에서, 방법(900A)은 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하는 것을 포함할 수 있다.

동작(915)에서, 방법(900A)은 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하는 것을 포함할 수 있다.

동작(916)에서, 방법(900A)은 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하는 것을 포함할 수 있다.

도 9b는 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 방법(900B)의 흐름도이다. 일부 구현에서, 도 9b의 하나 이상의 프로세스 블록은 인코더(203)에 의해 수행될 수 있다. 일부 구현에서, 도 9b의 하나 이상의 프로세스 블록은 디코더(210)와 같이 인코더(203)와 별개이거나 인코더(203)를 포함하는 다른 디바이스 또는 디바이스 그룹에 의해 수행될 수 있다.

도 9b에 도시된 바와 같이, 동작(921)에서, 방법(900B)은 소스 포인트 클라우드에 기반하여 점유 맵을 생성하는 것을 포함할 수 있다.

동작(922)에서, 방법(900B)은 손실 코딩을 사용하여 재구성된 점유 맵을 생성하는 것을 포함할 수 있고, 여기서 재구성된 점유 맵의 해상도는 재구성된 기하구조 맵의 해상도 및 재구성된 텍스처 맵의 해상도와 동일하다. 실시예에서, 재구성된 점유 맵은 재채색을 사용하지 않고 생성될 수 있다.

실시예에서, 텍스처 픽셀의 컬러는 점유 맵에 기반하여 선택될 수 있다.

실시예에서, 텍스처 픽셀은 점유 맵에서 점유되지 않고 재구성된 점유 맵에서 점유된 반-점유 픽셀에 대응할 수 있고, 텍스처 픽셀의 컬러는 동일한 블록에서 복수의 점유된 픽셀의 평균값에 기반하여 선택될 수 있다.

실시예에서, 텍스처 픽셀은 점유 맵에서 점유되지 않고 재구성된 점유 맵에서 점유된 반-점유 픽셀에 대응할 수 있고, 텍스처 픽셀의 컬러는 복수의 최근접 이웃 점유 픽셀의 거리-가중 평균값에 기반하여 선택될 수 있다.

실시예에서, 텍스처 픽셀은 점유 맵에서 점유되고 재구성된 점유 맵에서 점유되는 점유 픽셀에 대응할 수 있고, 점유 맵에서 점유되지 않고 재구성된 점유 맵에서 점유된 반-점유 픽셀의 컬러 값은 재채색을 사용하여 결정될 수 있다.

실시예에서, 반-점유 픽셀을 포함하는 블록에 포함된 복수의 픽셀의 복수의 컬러 값은 재채색을 사용하여 결정될 수 있다.

실시예에서, 포인트는 기하구조 맵과 재구성된 기하구조 맵 간의 비교에 기반하여 획득될 수 있다.

비록 도 9a-도 9b가 방법(900A 및 900B)의 예시적인 블록을 도시하지만, 일부 구현에서, 방법(900A 및 900B)은 추가 블록, 더 적은 수의 블록, 상이한 블록 또는 도 9 a-도 9b에 표시된 것과 상이하게 배열된 블록을 포함할 수 있다. 추가적으로 또는 대안적으로, 방법(900A)의 블록 중 2개 이상은 병렬로 수행될 수 있다. 실시예에서, 도 9a-도 9b의 블록 중 임의의 블록은 원하는 대로 도 9a-도 9b의 임의의 다른 블록 또는 블록들과 임의의 순서 또는 양으로 조합될 수 있다.

도 10은 실시예에 따라 비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 장치(1000)의 다이어그램이다. 도 10에 도시된 바와 같이, 장치(800)는 제1 획득 코드(1010), 제1 생성 코드(1020), 제2 생성 코드(1030), 제2 획득 코드(1040), 선택 코드(1050) 및 제3 생성 코드(1060)를 포함한다.

제1 획득 코드(1010)는 적어도 하나의 프로세서가 소스 포인트 클라우드를 획득하게 하도록 구성될 수 있다.

제1 생성 코드(1020)는 적어도 하나의 프로세서가 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하게 하도록 구성될 수 있다.

제2 생성 코드(1030)는 적어도 하나의 프로세서가 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하게 하도록 구성될 수 있고, 재구성된 기하구조 맵의 해상도는 재구성된 텍스처 맵의 해상도와 동일하다.

제2 획득 코드(1040)는 적어도 하나의 프로세서가 기하구조 맵의 기하구조 픽셀 및 텍스처 맵의 텍스처 픽셀에 대응하는 소스 포인트 클라우드의 포인트를 획득하게 하도록 구성될 수 있다.

선택 코드(1050)는 적어도 하나의 프로세서가 획득된 포인트의 컬러에 기반하여 텍스처 픽셀의 컬러를 선택하게 하도록 구성될 수 있다.

제3 생성 코드(1060)는 적어도 하나의 프로세서가 선택된 컬러, 기하구조 맵 및 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하게 하도록 구성될 수 있다.

위에서 설명된 기법은 컴퓨터-판독가능 명령을 사용하여 컴퓨터 소프트웨어로서 구현될 수 있고 하나 이상의 컴퓨터-판독가능 매체에 물리적으로 저장될 수 있다. 예를 들어, 도 11은 본 개시내용의 소정 실시예를 구현하기에 적합한 컴퓨터 시스템(1100)을 도시한다.

컴퓨터 소프트웨어는 컴퓨터 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU) 등에 의해 어셈블리, 컴파일, 링킹될 수 있는 임의의 적합한 기계 코드 또는 컴퓨터 언어, 또는 마이크로-코드 실행이 직접 실행되거나 해석을 통해 실행될 수 있는 명령을 포함하는 코드를 생성하는 유사한 메커니즘 등을 사용하여 코딩될 수 있다.

명령은 예를 들어 개인용 컴퓨터, 태블릿 컴퓨터, 서버, 스마트폰, 게이밍 디바이스, 사물 인터넷 디바이스 등을 포함하는 다양한 유형의 컴퓨터 또는 그 구성요소에서 실행될 수 있다.

컴퓨터(1100)에 대한 도 11에 도시된 구성요소는 예이고 본 개시내용의 실시예를 구현하는 컴퓨터 소프트웨어의 사용 또는 기능의 범위에 대한 어떠한 제한도 제시하도록 의도되지 않는다. 구성요소의 구성이 컴퓨터 시스템(1100)의 비-제한적인 실시예에 예시된 구성요소 중 임의의 하나 또는 조합과 관련된 임의의 종속성 또는 요건을 갖는 것으로 해석되어서도 안 된다.

컴퓨터 시스템(1100)은 특정 인간 인터페이스 입력 디바이스를 포함할 수 있다. 이러한 인간 인터페이스 입력 디바이스는 예를 들어 촉각 입력(이를테면: 키스트로크, 스와이프, 데이터 장갑 움직임), 오디오 입력(이를테면: 음성, 박수), 시각적 입력(이를테면: 제스처), 후각적 입력(묘사되지 않음)을 통해 한 명 이상의 인간 사용자에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스는 또한 오디오(이를테면: 음성, 음악, 주변 사운드), 이미지(이를테면: 스캔 이미지, 스틸 이미지 카메라로부터 획득된 사진 이미지), 비디오(이를테면: 2-차원 비디오, 입체 비디오를 포함하는 3-차원 비디오) 같은 반드시 인간에 의한 의식적인 입력에 직접 관련되지 않는 소정의 매체에 사용될 수 있다.

입력 인간 인터페이스 디바이스는: 키보드(1101), 마우스(1102), 트랙패드(1103), 터치 스크린(1110), 데이터-글러브, 조이스틱(1105), 마이크로폰(1106), 스캐너(1107), 카메라(1108) 중 하나 이상(각각 묘사된 것 중 하나만)을 포함할 수 있다.

컴퓨터 시스템(1100)은 또한 소정 인간 인터페이스 출력 디바이스를 포함할 수 있다. 이러한 인간 인터페이스 출력 디바이스는 예를 들어 촉각 출력, 사운드, 광, 및 냄새/미각을 통해 하나 이상의 인간 사용자의 감각을 자극할 수 있다. 이러한 인간 인터페이스 출력 디바이스는 촉각 출력 디바이스(예를 들어, 터치-스크린(1110), 데이터 글로브 또는 조이스틱(1105)에 의한 촉각 피드백이지만, 또한 입력 디바이스 역할을 하지 않는 촉각 피드백 장치가 있을 수 있음)를 포함할 수 있다. 예를 들어, 이러한 디바이스는 오디오 출력 디바이스(예를 들어, 스피커(1109), 헤드폰(도시되지 않음)), 시각적 출력 디바이스(예를 들어, CRT 스크린, LCD 스크린, 플라즈마 스크린, OLED 스크린을 포함하는 스크린(1110), 각각은 촉각 피드백 능력을 갖거나 갖지 않고 - 이의 일부는 입체 출력과 같은 수단을 통해 2차원 시각적 출력 또는 3차원 초과의 출력을 출력할 수 있음; 가상-현실 안경(도시되지 않음), 홀로그램 디스플레이 및 연기 탱크(도시되지 않음)) 및 프린터(도시되지 않음)일 수 있다.

컴퓨터 시스템(1100)은 또한 인간 액세스가능 저장 디바이스 및 이의 연관된 매체, 이를테면 CD/DVD를 갖는 CD/DVD ROM/RW(1120) 또는 이와 유사한 매체(1121)를 포함하는 광학 매체, 썸-드라이브(1122), 이동식 하드 드라이브 또는 솔리드 스테이트 드라이브(1123), 테이프 및 플로피 디스크(묘사되지 않음)와 같은 레거시 자기 매체, 보안 동글(묘사되지 않음)과 같은 특수 ROM/ASIC/PLD 기반 디바이스 등을 포함할 수 있다.

통상의 기술자는 또한 현재 개시된 주제와 관련하여 사용되는 "컴퓨터 판독가능 매체"라는 용어가 송신 매체, 반송파, 또는 다른 일시적 신호를 포함하지 않는다는 것을 이해해야 한다.

컴퓨터 시스템(1100)은 또한 하나 이상의 통신 네트워크들에 대한 인터페이스를 포함할 수 있다. 네트워크는 예를 들어 무선, 유선, 광일 수 있다. 네트워크는 또한 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연-허용 등이 될 수 있다. 네트워크의 예는 이더넷과 같은 근거리 통신망, 무선 LAN, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크, 케이블 TV, 위성 TV 및 지상파 방송 TV를 포함하는 TV 유선 또는 무선 광역 디지털 네트워크, CANBus 등을 포함하는 차량 및 산업용을 포함한다. 소정 네트워크는 일반적으로 소정 범용 데이터 포트 또는 주변 버스(1149)(이를테면, 예를 들어 컴퓨터 시스템(1100)의 USB 포트)에 부착된 외부 네트워크 인터페이스 어댑터를 요구하고; 다른 것들은 일반적으로 아래에 설명된 바와 같이 시스템 버스에 부착함으로써 컴퓨터 시스템(1100)의 코어에 통합된다(예를 들어, PC 컴퓨터 시스템에 대한 이더넷 인터페이스 또는 스마트폰 컴퓨터 시스템에 대한 셀룰러 네트워크 인터페이스). 이러한 네트워크 중 임의의 것을 사용하여, 컴퓨터 시스템(1100)은 다른 엔티티와 통신할 수 있다. 그러한 통신은 단방향, 수신 전용(예를 들어, 방송 TV), 단방향 송신 전용(예를 들어 CANbus에서 소정 CANbus 디바이스로), 또는 양방향(예를 들어 로컬 또는 광역 디지털 네트워크를 사용하여 다른 컴퓨터 시스템으로)일 수 있다. 이런 통신은 클라우드 컴퓨팅 환경(1155)에 대한 통신을 포함할 수 있다. 소정 프로토콜 및 프로토콜 스택은 위에서 설명된 바와 같이 각각의 이들 네트워크 및 네트워크 인터페이스에서 사용될 수 있다.

컴퓨터 시스템(1100)의 코어(1140)에는 전술한 인간 인터페이스 디바이스, 인간-액세스가능 저장 디바이스, 및 네트워크 인터페이스(1154)가 부착될 수 있다.

코어(1140)는 하나 이상의 중앙 처리 장치(CPU)(1141), 그래픽 처리 장치(GPU)(1142), FPGA(Field Programmable Gate Areas)(FPGA)(1143) 형태의 특수 프로그램가능 프로세싱 유닛, 소정 작업을 위한 하드웨어 가속기(1144) 등을 포함할 수 있다. 이러한 디바이스는 판독-전용 메모리(ROM)(1145), 랜덤-액세스 메모리(1146), 사용자가 액세스할 수 없는 내부 하드 드라이브, SSD 등과 같은 내부 대용량 저장장치(1147)와 함께, 시스템 버스(1148)를 통해 연결될 수 있다. 일부 컴퓨터 시스템에서, 시스템 버스(1148)는 추가 CPU, GPU 등에 의한 확장을 가능하게 하는 하나 이상의 물리적 플러그의 형태로 액세스할 수 있다. 주변 디바이스는 코어의 시스템 버스(1148)에 직접 부착되거나, 주변 버스(1149)를 통해 부착될 수 있다. 주변 버스를 위한 아키텍처는 PCI, USB 등을 포함한다. 그래픽 어댑터(1150)는 코어(1140)에 포함될 수 있다.

CPU(1141), GPU(1142), FPGA(1143) 및 가속기(1144)는 조합하여 전술한 컴퓨터 코드를 구성할 수 있는 소정 명령을 실행할 수 있다. 그 컴퓨터 코드는 ROM(1145) 또는 RAM(1146)에 저장될 수 있다. 과도 데이터는 또한 RAM(1146)에 저장될 수 있는 반면, 영구 데이터는 예를 들어 내부 대용량 저장장치(1147)에 저장될 수 있다. 하나 이상의 CPU(1141), GPU(1142), 대용량 저장장치(1147), ROM(1145), RAM(1146) 등과 밀접하게 연관된 캐시 메모리의 사용을 통해 메모리 디바이스 중 임의의 것에 대한 고속 저장 및 검색이 가능해질 수 있다.

컴퓨터 판독가능 매체는 다양한 컴퓨터-구현 동작을 수행하기 위한 컴퓨터 코드를 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시내용의 목적을 위해 특별히 설계되고 구성된 것일 수 있거나, 컴퓨터 소프트웨어 기술분야의 통상의 기술자에게 잘 알려져 있고 이용가능한 종류일 수 있다.

제한이 아닌 예로서, 아키텍처(1100), 특히 코어(1140)를 갖는 컴퓨터 시스템은 하나 이상의 유형의 컴퓨터-판독가능 매체에 구현된 소프트웨어를 실행하는 프로세서(들)(CPU, GPU, FPGA, 가속기 등을 포함함)의 결과로서 기능을 제공할 수 있다. 이러한 컴퓨터-판독가능 매체는 위에서 소개된 사용자-액세스가능 대용량 저장장치와 연관된 매체일 수 있을 뿐만 아니라, 코어-내부 대용량 저장장치(1147) 또는 ROM(1145)과 같은 비-일시적 특성을 갖는 코어(1140)의 소정 저장장치일 수 있다. 본 개시내용의 다양한 실시예를 구현하는 소프트웨어는 이러한 디바이스에 저장되어 코어(1140)에 의해 실행될 수 있다. 컴퓨터-판독가능 매체는 특정 요구에 따라 하나 이상의 메모리 디바이스 또는 칩을 포함할 수 있다. 소프트웨어는 코어(1140) 및 특히 내부의 프로세서(CPU, GPU, FPGA 등을 포함)이 RAM(1146)에 저장된 데이터 구조의 정의 및 소프트웨어에 의해 정의된 프로세스에 따라 이러한 데이터 구조의 수정을 포함하여, 본원에 설명된 특정 프로세스 또는 특정 프로세스의 특정 부분을 실행하게 할 수 있다. 추가로 또는 대안으로, 컴퓨터 시스템은 본원에 설명된 특정 프로세스 또는 특정 프로세스의 특정 부분을 실행하기 위해 소프트웨어 대신에 또는 함께 동작할 수 있는 회로(예를 들어: 가속기(1144))와 하드와이어 되거나 달리 내장된 로직의 결과로서 기능을 제공할 수 있다. 소프트웨어에 대한 참조는 로직을 포함할 수 있고, 대응되는 경우 그 반대의 경우도 마찬가지이다. 컴퓨터-판독가능 매체에 대한 언급은 적절한 경우 실행을 위한 소프트웨어를 저장하는 회로(이를테면 집적 회로(IC)), 실행을 위한 로직을 구현하는 회로, 또는 둘 모두를 포함할 수 있다. 본 개시내용은 하드웨어 및 소프트웨어의 임의의 적합한 조합을 포함한다.

본 개시내용이 몇몇 비-제한적인 실시예를 설명하였지만, 본 개시내용의 범위 내에 속하는 변경, 순열, 및 다양한 대체 등가물이 있다. 따라서, 통상의 기술자가 본원에 명시적으로 도시되거나 설명되지는 않았지만, 본 개시내용의 원리를 구현하고 따라서 본 개시내용의 사상 및 범위 내에 있는 다수의 시스템 및 방법을 고안할 수 있음이 인식될 것이다.

Claims

비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 방법으로서,
상기 방법은 적어도 하나의 프로세서에 의해 수행되고:
소스 포인트 클라우드를 획득하는 단계;
상기 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하는 단계;
재채색(recoloring)을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하는 단계 - 상기 재구성된 기하구조 맵의 해상도는 상기 재구성된 텍스처 맵의 해상도와 동일함 - ;
상기 기하구조 맵의 기하구조 픽셀 및 상기 텍스처 맵의 텍스처 픽셀에 대응하는 상기 소스 포인트 클라우드의 포인트를 획득하는 단계;
획득된 포인트의 컬러에 기반하여 상기 텍스처 픽셀의 컬러를 선택하는 단계; 및
선택된 컬러, 상기 기하구조 맵 및 상기 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 소스 포인트 클라우드에 기반하여 점유 맵을 생성하는 단계;
재채색을 사용하지 않고 상기 손실 코딩을 사용하여 재구성된 점유 맵을 생성하는 단계를 더 포함하고,
상기 재구성된 점유 맵의 해상도는 상기 재구성된 기하구조 맵의 해상도 및 상기 재구성된 텍스처 맵의 해상도와 동일하고,
상기 텍스처 픽셀의 컬러는 상기 점유 맵에 기반하여 선택되는, 방법.
제2항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀(semi-occupied pixel)에 대응하고,
상기 텍스처 픽셀의 컬러는 동일한 블록에서 복수의 점유된 픽셀의 평균 값에 기반하여 선택되는, 방법.
제2항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀에 대응하고,
상기 텍스처 픽셀의 컬러는 복수의 최근접 이웃 점유 픽셀의 거리-가중 평균값에 기반하여 선택되는, 방법.
제2항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되고 상기 재구성된 점유 맵에서 점유되는 점유 픽셀에 대응하고,
상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀의 컬러 값은 상기 재채색을 사용하여 결정되는, 방법.
제5항에 있어서,
상기 반-점유 픽셀을 포함하는 블록에 포함된 복수의 픽셀의 복수의 컬러 값은 상기 재채색을 사용하여 결정되는, 방법.
제1항에 있어서,
상기 포인트는 상기 기하구조 맵과 상기 재구성된 기하구조 맵 간의 비교에 기반하여 획득되는, 방법.
비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 장치로서,
프로그램 코드를 저장하도록 구성된 적어도 하나의 메모리; 및
상기 프로그램 코드를 판독하고 상기 프로그램 코드에 의해 명령된 대로 동작하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 프로그램 코드는:
상기 적어도 하나의 프로세서가 소스 포인트 클라우드를 획득하게 하도록 구성된 제1 획득 코드;
상기 적어도 하나의 프로세서가 상기 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하게 하도록 구성된 제1 생성 코드;
상기 적어도 하나의 프로세서가 재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하게 하도록 구성된 제2 생성 코드 - 상기 재구성된 기하구조 맵의 해상도는 상기 재구성된 텍스처 맵의 해상도와 동일함 - ;
상기 적어도 하나의 프로세서가 상기 기하구조 맵의 기하구조 픽셀 및 상기 텍스처 맵의 텍스처 픽셀에 대응하는 상기 소스 포인트 클라우드의 포인트를 획득하게 하도록 구성된 제2 획득 코드;
상기 적어도 하나의 프로세서가 획득된 포인트의 컬러에 기반하여 상기 텍스처 픽셀의 컬러를 선택하게 하도록 구성된 선택 코드; 및
상기 적어도 하나의 프로세서가 선택된 컬러, 상기 기하구조 맵 및 상기 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하게 하도록 구성된 제3 획득 코드를 포함하는, 장치.
제8항에 있어서,
상기 적어도 하나의 프로세서가 상기 소스 포인트 클라우드에 기반하여 점유 맵을 생성하게 하도록 구성된 제4 생성 코드;
재채색을 사용하지 않고 상기 손실 코딩을 사용하여 상기 재구성된 점유 맵을 생성하게 하도록 구성된 제5 생성 코드 - 상기 재구성된 점유 맵의 해상도는 상기 재구성된 기하구조 맵의 해상도 및 상기 재구성된 텍스처 맵의 해상도와 동일함 - 를 더 포함하고,
상기 텍스처 픽셀의 컬러는 상기 점유 맵에 기반하여 선택되는, 장치.
제9항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀에 대응하고,
상기 텍스처 픽셀의 컬러는 동일한 블록에서 복수의 점유된 픽셀의 평균 값에 기반하여 선택되는, 장치.
제9항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀에 대응하고,
상기 텍스처 픽셀의 컬러는 복수의 최근접 이웃 점유 픽셀의 거리-가중 평균값에 기반하여 선택되는, 장치.
제9항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되고 상기 재구성된 점유 맵에서 점유되는 점유 픽셀에 대응하고,
상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀의 컬러 값은 상기 재채색을 사용하여 결정되는, 장치.
제12항에 있어서,
상기 반-점유 픽셀을 포함하는 블록에 포함된 복수의 픽셀의 복수의 컬러 값은 상기 재채색을 사용하여 결정되는, 장치.
제8항에 있어서,
상기 포인트는 상기 기하구조 맵과 상기 재구성된 기하구조 맵 간의 비교에 기반하여 획득되는, 장치.
비디오 포인트 클라우드 코딩을 사용하여 비디오 스트림을 인코딩하는 컴퓨터 명령을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체로서,
상기 컴퓨터 명령은, 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가:
소스 포인트 클라우드를 획득하게 하고;
상기 소스 포인트 클라우드에 기반하여 기하구조 맵 및 텍스처 맵을 생성하게 하고;
재채색을 사용하지 않고 손실 코딩을 사용하여 재구성된 기하구조 맵 및 재구성된 텍스처 맵을 생성하게 하고 - 상기 재구성된 기하구조 맵의 해상도는 상기 재구성된 텍스처 맵의 해상도와 동일함 - ;
상기 기하구조 맵의 기하구조 픽셀 및 상기 텍스처 맵의 텍스처 픽셀에 대응하는 상기 소스 포인트 클라우드의 포인트를 획득하게 하고;
획득된 포인트의 컬러에 기반하여 상기 텍스처 픽셀의 컬러를 선택하게 하고;
선택된 컬러, 상기 기하구조 맵 및 상기 텍스처 맵에 기반하여 인코딩된 비디오 스트림을 생성하게 하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제15항에 있어서,
상기 소스 포인트 클라우드에 기반하여 점유 맵을 생성하게 하고;
재채색을 사용하지 않고 상기 손실 코딩을 사용하여 재구성된 점유 맵을 생성하게 하는 것을 더 포함하고,
상기 재구성된 점유 맵의 해상도는 상기 재구성된 기하구조 맵의 해상도 및 상기 재구성된 텍스처 맵의 해상도와 동일하고,
상기 텍스처 픽셀의 컬러는 상기 점유 맵에 기반하여 선택되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제16항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀에 대응하고,
상기 텍스처 픽셀의 컬러는 동일한 블록에서 복수의 점유된 픽셀의 평균 값에 기반하여 선택되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제16항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀에 대응하고,
상기 텍스처 픽셀의 컬러는 복수의 최근접 이웃 점유 픽셀의 거리-가중 평균값에 기반하여 선택되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제16항에 있어서,
상기 텍스처 픽셀은 상기 점유 맵에서 점유되고 상기 재구성된 점유 맵에서 점유되는 점유 픽셀에 대응하고,
상기 점유 맵에서 점유되지 않고 상기 재구성된 점유 맵에서 점유되는 반-점유 픽셀의 컬러 값은 상기 재채색을 사용하여 결정되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제19항에 있어서,
상기 반-점유 픽셀을 포함하는 블록에 포함된 복수의 픽셀의 복수의 컬러 값은 상기 재채색을 사용하여 결정되는, 비-일시적 컴퓨터-판독가능 저장 매체.