KR20220054283A - 3d 장면을 송신 및 렌더링하기 위한 방법들, 패치들을 생성하기 위한 방법, 및 대응하는 디바이스들 및 컴퓨터 프로그램들 - Google Patents

3d 장면을 송신 및 렌더링하기 위한 방법들, 패치들을 생성하기 위한 방법, 및 대응하는 디바이스들 및 컴퓨터 프로그램들 Download PDF

Info

Publication number
KR20220054283A
KR20220054283A KR1020227001565A KR20227001565A KR20220054283A KR 20220054283 A KR20220054283 A KR 20220054283A KR 1020227001565 A KR1020227001565 A KR 1020227001565A KR 20227001565 A KR20227001565 A KR 20227001565A KR 20220054283 A KR20220054283 A KR 20220054283A
Authority
KR
South Korea
Prior art keywords
streams
patch
depth
scene
subset
Prior art date
Application number
KR1020227001565A
Other languages
English (en)
Inventor
이본 르갈라이스
찰린 타이비
세르지 트라버트
찰스 살몬-레가그네르
Original Assignee
인터디지털 브이씨 홀딩스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터디지털 브이씨 홀딩스 인코포레이티드 filed Critical 인터디지털 브이씨 홀딩스 인코포레이티드
Publication of KR20220054283A publication Critical patent/KR20220054283A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 개시내용은 3D 장면을 송신 및 렌더링하기 위한 방법들 및 디바이스들을 개시한다. 송신하기 위한 방법은: 공간을 m개의 각도 섹터들―m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 공간을 n개의 심도 범위들로 분할하는 단계; 3D 장면의 제1 뷰로부터 생성된 적어도 하나의 제1 패치를 획득(11)하는 단계―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―; 3D 장면의 적어도 하나의 제2 뷰로부터 생성된 적어도 하나의 아틀라스를 획득(12)하는 단계―상기 적어도 하나의 아틀라스는 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 적어도 하나의 제1 패치 및 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 스트림들의 m'개의 쌍들을 포함하는 스트림들의 제1 서브세트 및 스트림들의 m' x n'개의 쌍들을 포함하는 스트림들의 제2 서브세트를 생성(13)하는 단계; 및 스트림들의 제1 및 제2 서브세트들을 단말기에 송신(14)하는 단계를 포함한다.

Description

3D 장면 전송 및 렌더링 방법, 패치 생성 방법, 해당 장치 및 컴퓨터 프로그램
관련 출원들에 대한 상호 참조
본 출원은 2019년 7월 15일자로 출원된 유럽 특허 출원 제19305939.1호의 이익을 주장하며, 그 내용은 본 명세서에 참고로 포함된다.
기술분야
본 개시내용은 비디오 처리의 분야에 관한 것으로서, 더 구체적으로는 볼류메트릭 비디오 콘텐츠(volumetric video content)의 분야에 관한 것이다. 본 개시내용은 적어도 하나의 단말기 기반 전달 기준을 고려함으로써 3D 장면의 표현의 단말기로의 적응적 송신을 위한 기술을 제공한다. 그러한 적응적 송신은, 예를 들어, 모바일 또는 헤드 장착 디스플레이 디바이스들(HMD)과 같은 단말기들 상의 몰입형 렌더링을 위해 3D 장면의 렌더링을 향상시키는데 이용될 수 있다.
본 개시내용은 볼류메트릭 콘텐츠, 특히, 3DoF+ 비디오 콘텐츠가 전달되어야 하는 임의의 응용들에 적응될 수 있다.
본 섹션은 아래에 설명 및/또는 청구되는 본 개시내용의 다양한 양태들과 관련될 수 있는 기술 분야의 다양한 양태들을 소개하도록 의도된다. 본 논의는 본 개시내용의 다양한 양태들의 더 나은 이해를 용이하게 하기 위해 배경 정보를 제공하는데 도움이 된다. 따라서, 이러한 진술들은, 종래 기술의 인정으로서가 아니라, 이러한 관점에서 읽혀져야 한다는 것이 이해된다.
360° 플랫 비디오(flat video)라고도 불리는 몰입형 비디오(immersive video)는 사용자가 정지 시점(still point of view)을 중심으로 한 그의 머리의 회전들을 통해 자신의 주위를 볼 수 있게 해준다. 회전들은 3DoF(3 Degrees of Freedom) 경험만을 허용한다. 3DoF 비디오가, 예를 들어, HMD 디바이스를 이용하는, 제1 전방향성 비디오 경험에 충분하더라도, 3DoF 비디오는, 예를 들어, 시차(parallax)를 겪음으로써, 더 많은 자유를 예상하는 뷰어에게 빠르게 좌절감을 주게 될 수 있다. 그에 부가하여, 3DoF는 또한, 사용자가 그의 머리를 회전할 뿐만 아니라 그의 머리를 3개의 방향으로 이동시키기 때문에 현기증을 유발할 수 있으며, 이동들은 3DoF 비디오 경험들에서 재생성되지 않는다.
볼류메트릭 비디오(6DoF(6 Degrees of Freedom) 비디오로도 알려짐)는 3DoF 비디오에 대한 대안이다. 6DoF 비디오를 시청할 때, 회전들에 더하여, 사용자는 시청된 콘텐츠 내에서 그의 머리 및 심지어 그의 신체를 이동시킬 수 있고, 시차 및 심지어 볼륨들을 경험할 수 있다. 그러한 비디오들은 몰입감 및 장면 심도(scene depth)의 인식을 상당히 증가시키고, 또한 머리 이동들 동안 일관된 시각적 피드백을 제공함으로써 현기증을 방지한다.
3DoF+로 알려진, 3DoF와 6DoF 사이의 중간 접근법이 또한 제안되었다. 예를 들어, WO2019/055389에 개시된 그러한 비디오 기반 접근법은 컬러 및 심도 패치들의 조합으로서 볼류메트릭 입력 정보를 송신하는 것으로 구성된다. 각각의 패치는 원래의 3D 장면의 서브파트의 연속적인 구면(spherical) 2D 투영들/맵핑들로부터 발생한다.
기본적으로, 그러한 분해는 장면을 (1) 메인 중심 뷰포인트(viewpoint)로부터 보이는 장면의 부분을 포함하는 중심 패치 및 (2) 이 중심 뷰포인트로부터 보이지 않는 상보적 정보를 임베딩하는 주변 패치들로서 박리(peels)/인수분해(factorizes)한다.
3DoF+ 비디오 콘텐츠를 송신하기 위해, 다음의 2개의 비디오 프레임들이 정의된다: (1) 시차 정보를 운반하기 위해 중심 패치의 텍스처 및 주변 패치들의 텍스처 둘다를 운반하는 컬러 프레임, 및 (2) 시차 정보를 운반하기 위해 중심 패치의 심도 및 주변 패치들의 심도 둘다를 운반하는 심도 프레임.
디코더 콘텍스트들의 수를 제한하기 위해, 컬러 및 심도 프레임들은 중심 패치의 크기(예를 들어, 4K 픽셀들 x 2K 픽셀들) 플러스 여분의 룸 크기(room size)에 대응하는 고정된 크기를 가져서, 모든 360° 방향들에서, 소스 시점으로부터의 시차 정보를 운반한다.
그러나, 시차 정보를 고정 크기 프레임들로 랩핑(wrapping)하는 것은 너무 많은 숨겨진 객체들이 없는 간단한 장면에 대해 충분할 수 있지만, 복잡한 장면들의 송신에 대해 비효율적일 수 있고, 여기서 많은 숨겨진 객체들은 주변 비디오 패치들 및 시차 정보에 대해 많은 양의 데이터를 필요로 한다. 또한, 종래 기술의 3DoF+ 기술은 3D 장면을 렌더링할 때 레이턴시를 겪는다. 이것은, 예를 들어, HMD 사용자가 한 방향으로 머리를 빠르게 돌릴 때 그러할 수 있다. 종래 기술에 따르면, 렌더링 단말기는 무엇이든 디스플레이하기 전에 컬러 프레임의 수신을 기다리고, 볼류메트릭 렌더링을 위해 심도 프레임의 수신을 기다려야 한다.
따라서, 알려진 기술들의 단점들 중 적어도 하나를 극복하는, 3D 장면을 송신하기 위한 새로운 기술이 필요하다.
본 개시내용의 양태에 따르면, 3D 장면의 표현을 단말기에 송신하기 위한 방법이 개시된다. 그러한 방법은: 공간을 m개의 각도 섹터들(angular sectors)―m개의 각도 섹터들 각각은 뷰포트(viewport)로부터의 각도 거리(angular distance)에 대응함―로, 그리고 공간을 n개의 심도 범위들로 분할하는 단계; 3D 장면의 제1 뷰로부터 생성된 적어도 하나의 제1 패치를 획득하는 단계―상기 적어도 하나의 제1 패치는 텍스처 성분(texture component) 및 심도 성분(depth component)을 포함함―; 3D 장면의 적어도 하나의 제2 뷰로부터 생성된 적어도 하나의 아틀라스(atlas)를 획득하는 단계―상기 적어도 하나의 아틀라스는 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 적어도 하나의 제1 패치 및 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 적어도 하나의 단말기 기반 전달 기준에 따라: 상기 제1 패치 또는 패치들로부터의 스트림들의 m'개의 쌍들을 포함하는 스트림들의 제1 서브세트―m'은 m개의 각도 섹터들의 전체 또는 서브세트임―, 및 상기 적어도 하나의 아틀라스로부터의 스트림들의 m' x n'개의 쌍들을 포함하는 스트림들의 제2 서브세트―m'≤m 및 n'≤n이고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함함―를 생성하는 단계; 및 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 단말기에 송신하는 단계를 포함한다.
본 개시내용에 따르면, 적어도 하나의 단말기 기반 전달 기준을 고려하여, 심도 성분들 및 텍스처 성분들을 송신하기 위한 스트림들의 서브세트만을 단말기에 송신하는 것이 가능하다.
더 구체적으로, 적어도 하나의 제2 뷰에 대해, 다른 뷰(제1 뷰 또는 다른 제2 뷰)에서 보이지 않는 제2 뷰의 포인트들(또는 복셀(voxel))이 식별될 수 있고, 이들 포인트들이 속하는 심도 범위 및/또는 각도 섹터가 결정될 수 있다. 따라서, 시차 정보를 송신하는데 이용될 수 있는, 이들 포인트들로부터 획득된 제2 패치들은 심도 범위당 및/또는 각도 섹터당 적어도 하나의 아틀라스인 아틀라스들로 그룹화될 수 있다.
이러한 방식으로, 모든 시차 정보를 송신하는 대신에, 단말기(의 사용자)에 대해 "유용한" 시차 정보만을 송신하는 것이 가능하다. 예를 들어, 특히 단말기와의 통신 채널의 이용가능한 대역폭이 제한될 때, 단말기의 사용자의 시점에 대응하는 시차 정보만이 송신될 수 있거나, 또는 사용자의 시점으로부터 최소 심도 범위에 대응하는 시차 정보만이 송신될 수 있다.
따라서, 본 개시내용의 적어도 하나의 실시예는 종래 기술에 따른 고정 크기 프레임들의 문제를 해결하는 것을 목적으로 한다. 실제로, 유용한 시차 정보만이 송신될 수 있고, 따라서 360° 공간의 일부 섹터는 시차 정보가 부족하고, 다른 섹터들은 여분의 룸 크기에 맞지 않을 수 있는 많은 양의 시차 정보를 갖는 복합 장면(complex scene)의 문제 또는 이종 장면(heterogeneous scene)의 문제를 해결한다.
또한, 본 개시내용의 적어도 하나의 실시예는 렌더링에 있어서의 레이턴시의 문제를 해결하는 것을 목표로 한다. 실제로, 유용한 시차 정보만이 송신될 수 있고, 따라서 빠른 렌더링을 허용한다.
다른 실시예에 따르면, 3D 장면의 표현을 단말기에 송신하기 위한 대응하는 디바이스가 개시된다. 그러한 디바이스는 특히 본 명세서에서 전술한 3D 장면의 표현을 송신하기 위한 방법을 구현하도록 적응될 수 있다. 예를 들어, 그러한 디바이스는 서버이다.
본 개시내용은 또한 단말기 상에 3D 장면을 렌더링하기 위한 방법을 개시한다. 그러한 방법은: 공간을 m개의 각도 섹터들―m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 공간을 n개의 심도 범위들로 분할하는 단계; 적어도 하나의 단말기 기반 전달 기준에 따라 생성된, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 수신하는 단계―상기 제1 서브세트는 적어도 하나의 제1 패치로부터 생성된 스트림들의 m'개의 쌍들을 포함하고, 상기 제2 서브세트는 적어도 하나의 아틀라스로부터 생성된 스트림들의 m' x n'개의 쌍들을 포함하고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함하고, m'은 m개의 각도 섹터들의 전체 또는 서브세트이고, n'은 n개의 심도 범위들의 전체 또는 서브세트이고, 상기 적어도 하나의 제1 패치는 3D 장면의 제1 뷰로부터 생성되고 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 아틀라스는 3D 장면의 적어도 하나의 제2 뷰로부터 생성되고, 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, m'≤m 및 n'≤n이고, 적어도 하나의 제1 패치 및 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 및 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트로부터 3D 장면의 표현을 구축하는 단계를 포함한다.
특히, 그러한 방법은 전술한 바와 같이 3D 장면의 표현을 송신하기 위한 방법을 통해 송신된 3D 장면을 렌더링하기 위해 구현될 수 있다.
이미 언급한 바와 같이, "유용한" 시차 정보만이 단말기에 의해 수신될 수 있으므로, 적어도 하나의 실시예에 따른 방법은 3D 장면의 빠른 렌더링을 허용한다.
다른 실시예에 따르면, 3D 장면을 렌더링하기 위한 대응하는 단말기가 개시된다. 렌더링을 위한 디바이스라고도 불리는 그러한 단말기는 특히 전술한 3D 장면을 렌더링하기 위한 방법을 구현하도록 적응될 수 있다. 예를 들어, 그러한 디바이스는 HMD, 모바일 폰, 태블릿 등이다.
본 개시내용은 또한 3D 장면을 표현하는 패치들을 생성하기 위한 방법을 개시한다. 그러한 방법은: 제1 뷰포인트로부터, 3D 장면의 제1 뷰를 획득하는 단계; 상기 제1 뷰로부터 적어도 하나의 제1 패치를 생성하는 단계―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―; 적어도 하나의 제2 뷰포인트로부터, 3D 장면의 적어도 하나의 제2 뷰를 획득하는 단계; 및 3D 장면 공간을 m개의 각도 섹터들―m개의 각도 섹터들 각각은 주어진 뷰포트로부터의 거리에 대응함―로, 그리고 n개의 심도 범위들로 분할하는 단계를 포함하고, 상기 제2 뷰 중 적어도 하나에 대해, 방법은: 3D 장면의 다른 뷰에서 보이지 않는 제2 뷰의 적어도 하나의 포인트를 식별하는 단계; 상기 적어도 하나의 포인트가 속하는 심도 범위를 결정하는 단계; m개의 각도 섹터들 중에서의 적어도 하나의 각도 섹터에 대해 그리고 n개의 심도 범위들 중에서의 적어도 하나의 심도 범위에 대해―m 또는 n 중 적어도 하나는 2 이상임―, 상기 각도 섹터 및 상기 심도 범위에 속하는 포인트들에 대해 상기 제2 뷰로부터 적어도 하나의 제2 패치를 생성하는 단계―상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 적어도 하나의 제1 패치 및 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 및 동일한 각도 섹터 및 동일한 심도 범위에 속하는 포인트들에 대해 생성된 제2 패치 중 적어도 하나를 함께 패킹함으로써 적어도 하나의 아틀라스를 구축하는 단계를 더 포함한다.
특히, 그러한 방법은 전술한 바와 같이 3D 장면의 표현을 송신하기 위한 방법에 의해 획득되는 패치들 및 아틀라스들을 생성하기 위해 구현될 수 있다.
제1 실시예에 따르면, 패치들을 생성하기 위한 방법 및 3D 장면의 표현을 송신하기 위한 방법은 동일한 디바이스, 예를 들어, 서버에 의해 구현될 수 있다.
제2 실시예에 따르면, 패치들을 생성하기 위한 방법 및 3D 장면의 표현을 송신하기 위한 방법은 임의의 통신 프로토콜에 따라 유선 또는 무선으로 통신할 수 있는 2개의 상이한 디바이스들에 의해 구현될 수 있다.
따라서, 제2 실시예에 따른 3D 장면을 표현하는 패치들을 생성하기 위한 대응하는 디바이스가 개시된다. 그러한 디바이스는 특히 본 명세서에서 전술한 3D 장면을 표현하는 패치들을 생성하기 위한 방법을 구현하도록 적응될 수 있다.
본 개시내용의 다른 양태는 3D 장면의 표현을 송신하기 위한 방법, 3D 장면을 렌더링하기 위한 방법, 또는 3D 장면을 표현하는 패치들을 생성하기 위한 방법을 수행하도록 적응된 소프트웨어 코드를 포함하는, 통신 네트워크로부터 다운로드가능하고/하거나 컴퓨터에 의해 판독가능한 매체 상에 기록되고/되거나 프로세서에 의해 실행가능한 적어도 하나의 컴퓨터 프로그램 제품에 관한 것이며, 여기서 소프트웨어 코드는 전술한 방법들의 단계들 중 적어도 하나를 수행하도록 적응된다.
또한, 본 개시내용의 다른 양태는 전술한 3D 장면의 표현을 송신하기 위한 방법, 3D 장면을 렌더링하기 위한 방법, 또는 3D 장면을 표현하는 패치들을 생성하기 위한 방법을 구현하기 위한 프로그램 코드 명령어들을 포함하는, 그 위에 기록되고 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독가능 매체에 관한 것이다.
본 개시내용은 첨부 도면들을 참조하여, 결코 제한적이지 않게, 다음의 실시예 및 실행 예들에 의해 더 잘 이해되고 예시될 것이다.
도 1은 본 개시내용의 실시예에 따른, 3D 장면의 표현을 송신하기 위한 방법을 도시하는 흐름도이다.
도 2는 본 개시내용의 실시예에 따른, 3D 장면을 표현하는 패치들을 생성하기 위한 방법을 도시하는 흐름도이다.
도 3은 본 개시내용의 실시예에 따른, 3D 장면을 처리하기 위한 방법의 주요 단계들을 도시하는 흐름도이다.
도 4는 종래 기술에 따른 패치들을 생성하기 위한 카메라들의 위치를 도시한다.
도 5는 종래 기술의 박리 기술에 따라 생성된 패치들의 예를 제공한다.
도 6a 및 도 6b는 본 개시내용에 따라 생성된 패치들의 예들을 제공한다.
도 7은 심도 우선순위화 표현의 예를 도시한다.
도 8은 섹터 및 심도 우선순위화 표현의 예를 도시한다.
도 9는 본 개시내용의 적어도 하나의 실시예에 따른, 3D 장면을 표현하는 패치들을 생성하기 위한 방법들, 3D 장면의 표현을 송신하기 위한 방법, 또는 3D 장면을 렌더링하기 위한 방법 중 적어도 하나를 구현하는 디바이스의 블록도이다.
도면들에서, 표현된 블록들은 반드시 물리적으로 분리된 엔티티들에 대응하지는 않는 순전히 기능적인 엔티티들이다. 즉, 이들은 소프트웨어, 하드웨어의 형태로 개발될 수 있거나, 하나 이상의 프로세서를 포함하는 하나 또는 여러 집적 회로로 구현될 수 있다.
본 개시내용의 도면들 및 설명들은, 명료성을 위해, 전형적인 송신 또는 렌더링 디바이스들에서 발견되는 많은 다른 요소들을 제거하면서, 본 개시내용의 명확한 이해를 위해 관련되는 요소들을 예시하도록 간략화되었음을 이해해야 한다.
본 개시내용의 일반적인 원리가 이하에서 논의될 것이다.
본 개시내용은 볼류메트릭 데이터 조직 및 연관된 단말기 의존적 전달 모드(예를 들어, 뷰포트 의존적)를 위한 기술을 제안한다.
적어도 하나의 실시예에 따르면, 그러한 기술은 단말기 상에 점진적 렌더링을 제공하고, 따라서 즉각적인 볼류메트릭 렌더링을 위해 제1 필수 요소들을 전달함으로써 레이턴시를 감소시킨다.
그러한 기술은 시차 정보(볼류메트릭 데이터)를 포함하는 패치들을 구성하기 위한 새로운 방법에 의존하여, (예를 들어, 실제 또는 가상 카메라들의) 시점 및/또는 공간 내의 포인트 위치(즉, 시점으로부터의, 3D 장면에서의 포인트/복셀의 위치)에 따라 패치들을 구성하는 것을 허용하며, 가장 먼 것이 덜 중요하다. 볼류메트릭 데이터 요소(포인트 위치)의 우선순위를 결정하기 위한 기준들은 심도(시점으로부터의 거리), 각도 섹터(전달된 뷰포트의 중심으로부터의 거리) 또는 이 둘의 조합일 수 있다. 예를 들어, 클라이언트는 기본적인 플랫 360° 렌더링을 위해 필요한 비디오 정보를 먼저 다운로드할 수 있고, 이용가능한 스루풋에 따라, 시차 경험을 위한 개선 데이터를 더 다운로드할 수 있다.
적어도 하나의 실시예에 따르면, 볼류메트릭 데이터는 따라서 동일한 크기(예를 들어, 4K)일 수 있지만, 상이한 패치 배열들을 갖는 비디오 프레임들의 리스트로 조직되어, 360° 공간의 섹터당, 및 소스 시점까지의 거리당(예를 들어, 가까운 것으로부터 먼 것으로의) 렌더링을 허용한다.
볼류메트릭 데이터는 패치들의 가변 리스트로 구성될 수 있으며, 주어진 공간 섹터에 대해, 그 콘텐츠는 연속적인 비디오 프레임들의 송신을 통해 분배된다.
수신된 데이터의 양을 최적화하면서 한 시점으로부터 다른 시점으로 스위칭할 수 있기 위해, 볼류메트릭 콘텐츠는 고정 지속기간의 청크들(chunks)로 세그먼트화될 수 있다. 서버 측에는 3-레벨 조직: 시간 간격마다, 섹터마다, 및 소스 시점까지의 심도마다(즉, 상세 레벨)를 나타내는 청크들이 저장된다. 이 접근법 덕분에, 단말기(또는 클라이언트 애플리케이션)는 우선순위화된 순서로 데이터를 검색할 수 있다: 플랫 360° 렌더링을 위해 먼저 필요한 비디오 정보, 및 그 후, 이용가능한 스루풋에 따른, 시차 경험을 위한 개선 데이터. 이 데이터 복구를 위한 우선순위는 장면 내의 사용자의 위치의 근접성에 비례할 수 있다. 이것은 네트워크 자원들이 충분한 경우에만 추가 객체들에 대응하는 비디오 패치들 및 연관된 메타데이터가 이용될 수 있다는 것을 의미한다.
본 개시내용의 적어도 하나의 실시예가 이제 도 1 내지 도 3과 관련하여 제시된다.
3D 장면의 표현을 송신하기 위한 디바이스, 예를 들어, 서버에 의해 구현되는 주요 단계들이 도 1에 개략적으로 도시된다. 이 실시예에 따르면, 서버(10)는 텍스처 성분 및 심도 성분을 포함하는 적어도 하나의 제1 패치를 획득(11)한다. 메인 패치(들) 또는 중심 패치(들)라고도 지칭되는 그러한 제1 패치 또는 패치들은 메인 뷰 또는 소스 뷰라고도 지칭되는 (실제 또는 가상 카메라에 의해) 제1 뷰포인트로부터 캡처된 3D 장면의 제1 뷰로부터 생성될 수 있다. 그것은 3D 장면의 투영된 표현일 수 있다.
서버는 또한 적어도 하나의 아틀라스를 획득(12)한다. 그러한 아틀라스 또는 아틀라스들은 (실제 또는 가상 카메라에 의해) 적어도 하나의 제2 뷰포인트로부터 획득된 3D 장면의 적어도 하나의 제2 뷰로부터 생성될 수 있다. 더 구체적으로, 제2 뷰들 중 하나에 대해(그리고 유리하게는 제2 뷰들 각각에 대해), 주변 패치(들)라고도 지칭되는 적어도 하나의 제2 패치가 생성될 수 있다. 송신되어야 하는 데이터의 양을 감소시키기 위해, 그러한 제2 패치(들)는 제1 뷰에서 또는 다른 뷰포인트로부터 캡처된 제2 뷰에서 보이지 않는 제2 뷰의 포인트들에 대해서만 생성될 수 있다. 그러한 제2 패치(들)는 대응하는 포인트가 속하는 각도 섹터 및/또는 심도 범위를 고려하여 아틀라스(들)에 함께 패킹되거나 그룹화될 수 있다. 이러한 방식으로, 상기 뷰포인트들 중 하나에 중심을 둔 몇몇 각도 섹터들 및/또는 상기 뷰포인트들 중 하나로부터 기원하는 몇몇 심도 범위들이 고려될 수 있고, 각도 섹터당 및/또는 심도당 적어도 하나의 아틀라스가 서버에 의해 구축되고 획득될 수 있다. 예를 들어, 제1 심도 범위는 뷰포인트 중 하나로부터 0과 50cm 사이에 포함되는 거리에 대응하고, 제2 심도 범위는 뷰포인트 중 하나로부터 50cm와 1m 사이에 포함되는 거리에 대응하고, 제3 심도 범위는 뷰포인트 중 하나로부터 1m와 2m 사이에 포함되는 거리에 대응하고, 제4 심도 범위는 2m보다 큰 거리에 대응한다.
제1 패치(들)를 획득하고 아틀라스(들)를 획득하기 위한 단계들은 동시에 또는 임의의 순서로 연속적으로 구현될 수 있다는 점에 주목할 수 있다.
제1 패치(들) 및 아틀라스(들)를 획득한 후에, 서버는, 적어도 하나의 단말기 기반 전달 기준에 따라, 다음의 스트림들: (1) 상기 제1 패치 또는 패치들로부터의, 스트림들의 m'개의 쌍들을 포함하는 스트림들의 제1 서브세트 및 (2) 상기 아틀라스 또는 아틀라스들로부터의, 스트림들의 m' x n'개의 쌍들을 포함하는 스트림들의 제2 서브세트를 생성(13)할 수 있고, m'≤m 및 n'≤n이고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함한다.
예를 들어, 서버와 단말기 사이의 통신 채널의 대역폭이 매우 큰 경우, 스트림들의 서브세트만을 송신할 필요가 없다: m'은 m과 동일할 수 있고, n'은 n과 동일할 수 있다. 반대로, 대역폭이 제한되는 경우, m'은 1과 동일할 수 있고, n'은 n과 동일할 수 있거나, 또는 m'은 m과 동일할 수 있고, n'은 1과 동일할 수 있거나, 또는 다른 조합일 수 있다.
서버는 다음에 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 단말기에 송신(14) 또는 전달할 수 있다. 따라서 제1 패치(들) 및 제2 패치(들)는 상이한 프레임들에서 송신된다.
예를 들어, 단말기 기반 전달 기준은, 단말기와 서버 사이의 통신 채널 상에서 이용가능한 대역폭, 단말기의 사용자가 보는 적어도 하나의 각도 섹터, 단말기의 능력들, 및 단말기로부터 수신된 요청을 포함하는 그룹으로부터 선택될 수 있다.
스트림들의 생성 및 스트림들의 송신은 주기적으로 및/또는 상기 적어도 하나의 단말기 기반 전달 기준의 변경 후에 구현될 수 있다.
이러한 방식으로, 단말기에 송신될 스트림들의 생성은 단말기에 적응될 수 있다. 특히, 그것은 시간에 따라 변경되어, 스트림에 의해 운반되는 콘텐츠를 단말기에, 그리고, 예를 들어, 단말기의 사용자의 시점에 적응시킬 수 있다. 스트림들의 생성은, 예를 들어, 이용가능한 대역폭을 분석한 후에, 또는 단말기로부터의 요청 시에 서버에 의해 결정될 수 있다.
적어도 하나의 실시예에 따르면, 서버는 제1 뷰로부터 생성된 모든 제1 패치들, 및 3D 장면의 모든 제2 뷰들로부터 각도 섹터당 및 심도 범위당 생성된 모든 아틀라스들을 획득한다.
이러한 방식으로, 서버는 3D 장면에 대한 완전한 지식을 가질 수 있고, 적어도 하나의 단말기 전달 기준에 기초하여 단말기에 유용할 수 있는 스트림들만을 생성할 수 있다. 특히, 서버는 모든 제1 패치들로부터의 스트림들의 m개의 쌍들을 포함하는 스트림들의 제1 세트, 및 모든 아틀라스들로부터의 스트림들의 m x n개의 쌍들을 포함하는 스트림들의 제2 세트를 생성할 수 있고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함한다.
제1 실시예에 따르면, 제1 및 제2 패치들, 및 대응하는 아틀라스들은 그러한 서버에 의해 생성될 수 있다. 이 제1 실시예에서, 제1 패치(들)를 획득(11) 및 아틀라스(들)를 획득(12)하는 단계들은 제1 패치(들)를 생성 및 아틀라스(들)를 생성하는 단계들에 대응할 수 있다.
제2 실시예에 따르면, 제1 및 제2 패치들, 및 대응하는 아틀라스들은 패치들을 생성하기 위한 다른 디바이스에 의해 생성된 다음, 서버에 송신될 수 있다. 이 제2 실시예에서, 제1 패치(들)를 획득(11) 및 아틀라스(들)를 획득(12)하는 단계들은 제1 패치(들)를 수신 및 아틀라스(들)를 수신하는 단계들에 대응할 수 있다.
도 2는 패치들을 생성하기 위한 디바이스에 의해 구현되는, 그러한 제2 실시예에 따른 제1 패치(들) 및 아틀라스(들)의 생성을 위한 주요 단계들을 도시한다. 이 실시예에 따르면, 패치들을 생성하기 위한 그러한 디바이스(20)는 적어도 하나의 프로세서와 연관된 메모리(도시되지 않음)를 포함할 수 있고, 적어도 하나의 프로세서는: 제1 뷰포인트로부터 장면의 제1 뷰를 획득(21)하고; 상기 제1 뷰로부터 적어도 하나의 제1 패치를 생성(22)하고―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―; 적어도 하나의 제2 뷰포인트로부터 장면의 적어도 하나의 제2 뷰를 획득(23)하도록 구성된다. 장면의 적어도 하나의 제2 뷰에 대해(그리고 유리하게는 각각의 제2 뷰에 대해), 적어도 하나의 프로세서는: 3D 장면의 다른 뷰(제1 뷰 또는 다른 제2 뷰)에서 보이지 않는 제2 뷰의 적어도 하나의 포인트를 식별(24)하고; 상기 적어도 하나의 포인트가 속하는 심도 범위를 결정(25)하고―상기 뷰포인트들 중 하나에 중심을 둔 m개의 각도 섹터들 중에서의 적어도 하나의 각도 섹터에 대해, 그리고 상기 뷰포인트들 중 하나로부터 기원하는 n개의 심도 범위들 중에서의 적어도 하나의 심도 범위에 대해, m 또는 n 중 적어도 하나는 2 이상임―; 상기 각도 섹터 및 상기 심도 범위에 속하는 포인트들에 대한 적어도 하나의 제2 패치를 생성(26)하고―상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함함―; 및 동일한 각도 섹터 및 동일한 심도 범위에 속하는 포인트들에 대해 생성된 적어도 하나의 (및 바람직하게는 모든) 제2 패치를 함께 패킹함으로써 적어도 하나의 아틀라스를 구축(27)하도록 더 구성된다.
제1 또는 제2 실시예에 따르면, 제1 패치(들)는 3D 장면의 제1 뷰를 2D 표현 상에 투영함으로써 생성될 수 있다. 예를 들어, 그러한 2D 투영은 현재 MPEG(Moving Picture Experts Group)에 의해 개발 중인, OMAF(Omnidirectional Media Format) 표준에서 제안된 것과 같은 등장방형 투영(EquiRectangular projection)(ERP) 또는 큐브 맵 투영(Cube Map projection)일 수 있다. 다른 3D 대 2D 투영된 표현이 또한 이용될 수 있다. 더 복잡한 투영들에 대해, 투영된 픽처에서의 직사각형은 각도 섹터보다 더 복잡한 3D 영역에 맵핑될 수 있지만, 타일(tile)과 포인트 클라우드의 서브-파트 사이의 일-대-일 대응이 유리하게 보장될 수 있다.
적어도 하나의 실시예에 따르면, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트의 조직을 설명하는 설명 데이터(description data)가 또한 서버로부터 단말기로 송신될 수 있다. 그러한 설명 데이터는 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트의 송신 전에 매니페스트 파일(manifest file)로 송신될 수 있다. 그것은 단말기로부터의 요청에 응답하여, 전용 채널 상에서 오프라인으로 송신되거나, 또는 단말기에 이전에 저장되거나, 본 개시내용의 최초 이용 시에 서버로부터 다운로드되거나, 등등일 수 있다.
예를 들어, 상기 설명 데이터는 다음을 포함할 수 있다: (1) 이용가능한 심도 범위들의 수 및 그들의 값들, (2) 이용가능한 각도 섹터들의 수 및 그들의 위치들, (3) 제2 서브세트의 각각의 스트림에 대한 아틀라스 또는 아틀라스들의 해상도, 및 아틀라스들이 GOP에 함께 패킹되는 경우, (4) 각각의 GOP에 대한 그리고 스트림들의 제2 서브세트의 각각의 스트림에 대한 평균 비트 레이트. 설명 데이터는 또한, 예를 들어, 구면 좌표들로 표현되는, 3D 장면 내의 패치들의 위치를 포함할 수 있다. 설명 데이터는 스트림들을 선택 및 디코딩하고, 3D 장면을 렌더링하기 위해 단말기에 의해 이용될 수 있다.
3D 장면을 렌더링하기 위해 단말기에 의해 구현되는 주요 단계들이 도 3에 개략적으로 도시된다. 이 실시예에 따르면, 단말기(30)는 적어도 하나의 단말기 기반 전달 기준에 따라 생성된 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 수신(31)한다.
예를 들어, 단말기 기반 전달 기준은 3D 장면의 표현을 송신하기 위한 디바이스와의 통신 채널 상에서 이용가능한 대역폭, 단말기의 사용자가 보는 적어도 하나의 각도 섹터, 단말기의 능력들, 및 단말기에 의해 전송된 요청을 포함하는 그룹으로부터 선택될 수 있다.
그러한 스트림들의 서브세트들은 도 1에 도시된 서버(10)에 의해 생성될 수 있다. 예를 들어, 단말기는 단말기에 유용한 시차 정보만을 수신하기 위해 서버에 요청을 전송할 수 있다. 변형에서, 서버는 단말기 기반 전달 기준(예를 들어, 서버와 단말기 사이의 통신 채널 또는 단말기의 사용자의 위치/시점)을 분석하고, 송신되어야 하는 스트림들을 선택할 수 있다. 예를 들어, 서버는 사용자의 시야에 대응하는 패치들만을 전달할 수 있다.
스트림들의 제1 서브세트는 적어도 하나의 제1 패치로부터 생성된 스트림들의 m'개의 쌍들을 포함할 수 있고, 스트림들의 제2 서브세트는 적어도 하나의 아틀라스로부터 생성된 스트림들의 m' x n'개의 쌍들을 포함할 수 있고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함한다. 상기 적어도 하나의 제1 패치는 3D 장면의 제1 뷰로부터 생성될 수 있다. 상기 적어도 하나의 아틀라스는 3D 장면의 적어도 하나의 제2 뷰로부터 생성될 수 있고, 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축될 수 있고, m'≤m 및 n'≤n이고, m 또는 n 중 적어도 하나는 2 이상이다. 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 텍스처 성분 및 심도 성분을 포함할 수 있다.
단말기는 이후 스트림들의 제1 및 제2 서브세트들로부터 3D 장면의 표현을 구축(32)하고 렌더링할 수 있다.
적어도 하나의 실시예에 따르면, 스트림들의 제2 서브세트는 적어도, 단말기의 사용자의 시점으로부터 기원하는 최소 심도 범위에 대해 구축된 아틀라스를 포함할 수 있다.
적어도 하나의 실시예에 따르면, 스트림들의 제2 서브세트는 적어도, 단말기의 사용자의 시점에 중심을 둔 각도 섹터에 대해 구축된 아틀라스를 포함할 수 있다.
이러한 실시예들에 따르면, 단말기의(또는 단말기의 사용자의) 시점은 단말기에 의해, 서버에 의해, 또는 다른 디바이스에 의해 먼저 결정될 수 있다. 그것이 단말기에 의해 결정되면, 단말기는 상기 시점을 고려하여 스트림들의 제2 서브세트를 획득하기 위해 서버에 요청을 전송할 수 있다.
따라서, 본 개시내용의 적어도 하나의 실시예에 따른 시차 패치들을 생성하는 방식은 볼류메트릭 비디오의 스케일러블 전달을 허용하고, 결과적으로 동일한 송신 비용으로 더 큰 청중을 커버하거나 경험을 개선하는 것을 허용할 수 있다.
적어도 하나의 실시예에 따르면, 그것은 상이한 대역폭 용량들을 갖는 이종 네트워크들 상에서 동일한 3DoF+ 콘텐츠를 송신하는 것을 허용할 수 있는데, 그 이유는 각각의 단말기가 그의 네트워크 특성들에 따라 서버로부터 검색된 시차 정보의 양을 적응시킬 수 있기 때문이다.
적어도 하나의 실시예에 따르면, 프로그레시브 렌더링(progressive rendering)을 구현하고, 중요도 및 수신의 순서에 의해 시차 정보를 디스플레이함으로써, 디바이스 상에 빠른 제1 렌더링(낮은 레이턴시)을 제공하는 것을 또한 목표로 할 수 있다.
본 개시내용의 실시예들의 상세한 설명이 아래에 설명될 것이다.
먼저, 3DoF+의 맥락에서 본 개시내용의 몇몇 실시예들이 논의될 것이다.
종래 기술에 따른 패치들의 생성이 이제 간략하게 논의된다. 종래 기술과 본 개시내용 사이의 차이점들을 설명하기 위해, 종래 기술에 따른 패치들을 생성하기 위한 3DoF+ 기술에 대한 리마인더들이 아래에 제시된다.
종래 기술 섹션에서 언급된 바와 같이, 3DoF+는 시차로 몰입형 비디오 경험을 풍부하게 하기 위해 개발되었다. 볼류메트릭 입력 정보(예를 들어, 볼류메트릭 비디오)는 다음의 여러 성분들로 분해될 수 있다: 제1 또는 중심 패치라고도 지칭되는, 중심 포인트로부터 보이는 360° 장면의 투영된 표현의 형태의 컬러/심도; 제2 또는 주변 패치라고도 지칭되는, 머리 자연 변위(head natural displacement)에 의해 드러난 장면의 부분들에 대한 컬러/심도 패치들; 패치들을 이용하기 위한 정보를 포함하는 메타데이터.
기본적으로, 볼류메트릭 비디오의 성분들은, 예를 들어, N개의 360° 카메라들의 리그(rig)에 의한 360° 장면의 캡처; N개의 카메라 캡처들로부터의 포인트 클라우드 생성; 4개의 가상 카메라들의 도입―3개의 카메라들은 도 4에 예시된 바와 같이, 카메라 C0가 있는 중심 뷰잉 포인트와 공동-중심에 있는 사면체의 3개의 꼭지점들에 배치됨―; 2개의 비디오 스트림들 C0(컬러) 및 D0(심도)을 형성하는, 중앙 카메라(도 4의 카메라 C0)로부터 보이는 바와 같은 장면을 갖는, 텍스처 및 심도를 갖는 투영된 표현의 생성―그러한 투영된 표현은 임의의 3D 대 2D 투영, 예를 들어, 등장방형 투영(ERP) 또는 큐브 맵 투영(CMP)에 의해 획득될 수 있음―; 이전 카메라들에 의해 보이지 않는 포인트들에 대한 컬러/심도 패치들을 생성하기 위한 박리 프로세스―이 프로세스는 꼭지점 상에 배치된 각각의 카메라(도 4의 카메라들 C1, C2 및 C3)에 대해, 반복적인 방식으로 행해질 수 있음―; 이전 단계들에서 생성된 중심 및 주변 컬러/심도 패치들을 직사각형 패치 아틀라스에 패킹하는 것―패킹 알고리즘은 GOP 위에 패치 위치를 제공하고, 메타데이터가 그에 따라 생성됨―; 레거시 HEVC 비디오 코덱들을 이용한 아틀라스들의 인코딩―심도 및 컬러 아틀라스들은 먼저, 아티팩트들을 코딩하고 전체 비트레이트를 최적화하기에 충분히 강건하도록 전용 방식으로 각각 페더링되고(feathered) 양자화될 수 있음―에 의해 생성될 수 있다.
도 5에 도시된 바와 같이, 카메라 C0에 의해 캡처된 포인트들은 제1 패치들 C0.I0, C0.I1 및 C0.I2에 배치될 수 있으며, 이들은 이웃에 의해 수집된다. 따라서, 패치는 이웃 포인트들의 세트에 의해 정의될 수 있다. 그것은 크기 기준들에 따라 분할될 수 있다.
그 다음, 박리 프로세스는 주변 패치들을 전달할 수 있다. 도 5에 도시된 바와 같이, 카메라 C0에 의해 보이지 않은, 카메라 C1에 의해 캡처된 포인트들은 제2 패치들 C1.I0, C1.I1에 배치되고, 여기서, 이들은 이웃에 의해 수집된다. 그러한 프로세스는 각각의 카메라 C1, C2 및 C3에 대해 반복적으로 구현될 수 있다.
그 후, 전용 패킹 알고리즘은 GOP 일관된 방식으로 패치들을 컬러 및 심도 아틀라스들에 배치할 수 있다(패치 위치는 GOP/IntraPeriod에 걸쳐 불변임). 그 후, 아틀라스들은 레거시 HEVC 비디오 코덱들을 이용하여 인코딩될 수 있다. 각각의 패치에 대해, 볼류메트릭 장면을 복구하는데 요구되는 정보(패치의 위치/크기, 투영의 파라미터들)를 특정하는 추가 메타데이터의 세트가 제공될 수 있다. 따라서, 전체 스트림은 완전히 비디오 기반이고, 기존의 비디오 스트리밍 파이프라인들과 호환가능하다.
본 개시내용에 따른 패치들을 생성하는 것이 이하에서 설명될 것이다.
본 개시내용에 따르면, 중심 시점의 각도 섹터 및/또는 이 각도 섹터의 중심 시점으로부터의 거리에 따라, 뷰포인트에 의해 패치들을 생성하기 위한 새로운 알고리즘이 제안된다. 이 기술은 포인트들을 그들의 위치들에 따라 구별하는 것을 목표로 한다. 전역적으로, 가장 먼 포인트들은 텍스처 또는 심도에서 더 적은 정밀도를 요구할 수 있다.
더 구체적으로, 볼류메트릭 비디오의 성분들은 이전 섹션에 개시된 바와 같이, 그러나 또한 포인트들의 클라우드의 포인트가 속하는 심도 범위 및/또는 각도 섹터를 고려함으로써 생성될 수 있다.
제1 예에 따르면, 제1 뷰(도 2의 참조 번호 21)를 전달하는 중앙 카메라(C0)로부터의 캡처는 종래 기술로부터 수정되지 않는다. 그것은 여전히 컬러 및 심도를 갖는 3D 장면의 투영된 표현, 예를 들어, 등장방형 표현(도 2의 참조 번호 22)을 제공한다.
제2 예에 따르면, 중앙 카메라(C0)로부터의 캡처는 종래 기술로부터 수정될 수 있다. 예를 들어, 제1 패치들은 그들이 속하는 심도의 범위 또는 각도 섹터에 따라 정의된다.
제2 패치들은 이전 캡처(도 2의 참조 번호 24)에 의해 마스킹된 포인트들을 드러내기 위해 다양한 카메라들(예를 들어, C1, C2 및/또는 C3는 제2 뷰(들)를 전달할 수 있음)(도 2의 참조 번호 23)로부터 포인트들을 캡처함으로써 구축된다. 본 개시내용에 따른 카메라들 C0 내지 C3은 실제 카메라들 또는 가상 카메라들, 또는 이들의 조합일 수 있다는 점에 유의해야 한다. 또한, 카메라들의 수는 종래 기술에 개시된 바와 같이 4개의 카메라로 제한되지 않는다.
본 개시내용에 따르면, 제2 패치들은, 포인트들의 이웃에 의해 정의되는 것 대신에(또는 그에 더하여), 그들이 속하는 심도의 범위 또는 각도 섹터에 의해 정의될 수 있다. 여기서 심도는 중심 뷰포트로부터의 거리(즉, C0의 위치) 또는 캡처 포인트로부터의 거리(즉, C1, C2 또는 C3의 위치)일 수 있다. 캡처 포인트로부터 결정된 심도가 볼류메트릭 콘텐츠를 시각화하는 사용자에 의해 보여지는 심도와 동등할 수 있기 때문에 캡처 포인트에 관한 제2 접근법은 더 적절할 수 있다. 동일한 방식으로, 각도 섹터는 중심 뷰포트 상에 또는 캡처 포인트들 중 임의의 것 상에 중심을 둘 수 있다.
도 6a 및 도 6b는 포인트들의 심도를 고려하여, 제2 패치들의 생성의 2개의 예들을 도시하며, 따라서 이들이 나타내는 포인트들의 심도에 따라 패치들의 적응적 이용을 허용한다. 패치들을 구축할 때, 이 거리는 고려되어야 한다. 패치의 모든 포인트들은 동일한 심도 범위에 속해야 한다. 이것은 관찰 포인트로부터의 심도에 의존하는 패치들을 구축하고, 결과적으로 최적의 전달을 위해 그에 따라 이들을 선택할 수 있게 한다.
도 6a에 도시된 제1 예에 따르면, 공간은 중앙 카메라 C0으로부터 3개의 상이한 심도 범위들(거리의 범위들이라고도 지칭됨)에 대응하는 3개의 영역들 D0, D1, D2로 분할된다.
따라서, 본 개시내용에 따라 2개의 패치들 C1.D0.I0, C1.D0.I1 및 하나의 패치 C1.D1.I0 및 하나의 패치 C1.D2.I0이 생성되는 반면(Ci는 대응하는 카메라를 나타내고, Dj는 대응하는 심도 범위를 나타내고, Ik는 고려된 심도 범위 내의 패치의 인덱스를 나타냄), 도 5에 예시된 종래 기술에 따라서는 단지 하나의 패치 C1.I0 및 하나의 패치 C1.I1만이 생성되었다.
도 6b에 도시된 제2 예에 따르면, 공간은 캡처 카메라 C1로부터 3개의 상이한 심도 범위들(거리 범위라고도 지칭됨)에 대응하는 3개의 영역들 D0, D1, D2로 분할된다.
이 경우, 본 개시내용에 따라 5개의 패치들 C1.D0.I0, C1.D0.I1 및 C1.D1.I0, C1.D1.I1 및 C1.D2.I0이 생성되는 반면(Ci는 대응하는 카메라를 나타내고, Dj는 대응하는 심도 범위를 나타내고, Ik는 고려되는 심도 범위 내의 패치의 인덱스를 나타냄), 도 5에 예시된 종래 기술에 따라서는 하나의 패치 C1.I0 및 하나의 패치 C1.I1만이 생성되었다.
따라서, 5개의 패치들 C1.D0.I0, C1.D0.I1 및 C1.D1.I0, C1.D1.I1 및 C1.D2.I0은, 제2 패치들이 그들이 속하는 심도의 범위에 따라 이웃 포인트들을 그룹화함으로써 정의되는 경우에 본 개시내용에 따라 생성될 수 있다. 변형에서, 3개의 패치들 C1.D0, C1.D1 및 C1.D2는, 제2 패치들이 포인트들의 이웃에 의해 정의되지 않고, 그들이 속하는 심도의 범위 또는 각도 섹터에 따라 정의되는 경우에 생성될 수 있다.
물론, 심도 범위들의 수 및 크기는 도 6a 및 도 6b에 도시된 것으로 제한되지 않는다.
일단 패치들이 구축되면, 그것들은 동일한 심도 범위의 다른 패치들을 갖는 아틀라스들로 랩핑될 수 있다(심도가 다른 관찰 포인트로부터의 것이더라도).
모든 패치들/아틀라스들이 심도당 및/또는 섹터당 생성되면, 이들은 나중의 이용을 위해, 패치들을 생성하기 위한 디바이스의 메모리에 저장된다.
이용가능한 스루풋이 모든 콘텐츠를 전달하기에 충분하지 않을 때, 본 개시내용에 따른 심도 범위당 및/또는 각도 섹터당 이러한 종류의 패칭은 가장 가까운 볼류메트릭 데이터 또는 뷰포트 기반 볼류메트릭 데이터를 특권화하는 것을 허용할 수 있다.
예를 들어, 가장 먼 패치들이 전달되지 않을 때, 인페인팅 기법(inpainting technique)은 장면의 누락된 부분들의 효과들을 제한할 수 있다. 이용가능한 스루풋은 가장 가까운 객체들에 전용되고, 그것은 렌더링을 최적화한다.
콘텐츠를 플레이하기 전에, 렌더링을 위한 플레이어/디바이스는 아틀라스들 내의 데이터의 양이 시간에 따라 변할 수 있더라도 소비 동안 재구성할 필요 없이 고정된 수의 비디오 디코더들을 인스턴스화하고 구성할 수 있다.
이하의 설명은 패치들의 전달을 논의할 것이다.
본 개시내용에 따르면, 패치들을 전달하기 위한, 즉, 3D 장면의 표현을 송신하기 위한 새로운 알고리즘이 또한 제안된다.
그러한 송신은 적응적이고, 적어도 하나의 단말기 기반 전달 기준에 의존한다. 적어도 하나의 실시예에 따르면, 그러한 패치 전달 알고리즘은 이용가능한 네트워크 및 단말기 자원들에 따라 사용자 경험을 최적화하는 것을 목표로 한다.
즉, 3D 장면의 표현을 송신하기 위한 디바이스는 패치들을 생성하기 위한 디바이스에 의해 이전에 생성되어 저장된 모든 패치들/아틀라스들 중에서 송신될 일부 패치들/아틀라스들을 선택할 수 있다. 이미 언급한 바와 같이, 패치들을 생성하기 위한 디바이스 및 3D 장면의 표현을 송신하기 위한 디바이스는 하나의 동일한 디바이스, 예를 들어, 서버일 수 있다.
비트 레이트 및 플레이어 자원들을 최적화하는 것을 목적으로 하는 적응적 볼류메트릭 콘텐츠 전달을 위한 다른 접근법들이 아래에 개시된다.
이하의 설명은 먼저 패치들의 심도 기반 전달을 논의할 것이다.
제1 예에 따르면, 3D 장면의 투영된 표현(제1 패치들)의 텍스처 및 심도 성분들은 3D 장면의 표현을 송신하기 위한 디바이스(예를 들어, 서버(10))로부터 3D 장면을 렌더링하기 위한 디바이스(예를 들어, 단말기(30))로 완전히 전달될 수 있다.
제1 패치들이 패치들을 생성하기 위한 디바이스에서 섹터당 및/또는 심도당 생성된 경우, 그들은 모두 서버(10)에 송신될 수 있고, 서버(10)는 360°의 하나의 각도 섹터를 커버하기 위해 제1 패치들을 연결 또는 병합할 수 있다.
동일한 방식으로, 제2 패치들이 패치들을 생성하기 위한 디바이스에서 섹터당 및/또는 심도당 생성된 경우, 그들은 모두 서버(10)에 송신될 수 있고, 서버(10)는 360°의 하나의 각도 섹터를 커버하기 위해 제2 패치들을 연결 또는 병합할 수 있다.
이 심도 기반 접근법에서, 콘텐츠는 다음과 같이 2 + (n x 2)개의 스트림들로 조직될 수 있다: 제1 패치(들)의 텍스처 성분들 및 심도 성분들을 각각 전송하기 위한, 스트림들의 하나의 쌍을 포함하는 스트림들의 제1 세트, 심도 범위의 n개의 레벨들에 연관된 제2 패치들에 대해 생성된 n개의 아틀라스(들)의 텍스처 성분들 및 심도 성분들 및 아틀라스(들)에 연관된 메타데이터를 각각 전송하기 위한, 스트림들의 n개의 쌍들을 포함하는 스트림들의 제2 세트.
예를 들어, 스트림들의 제1 세트는 크기 W x H의 하나의 중심 패치를 운반할 수 있고, 여기서 W 및 H는 도당 픽셀(pixels per degrees)(PPD)의 수에 의해 정의된 시각적 품질에 의존할 수 있다. 예를 들어, 4K x 2K 프레임은 4K/360°= 11 도당 픽셀 품질을 제공한다.
아틀라스들은 GOP(group of pictures)의 형태로 함께 놓일 수 있다. GOP의 지속기간은 프레임 번호를 항상 포함하는 것은 아니지만 모든 스트림들에 대해 동일할 수 있다.
하나의 매니페스트는 상이한 스트림들의 조직을 기술할 수 있다.
예를 들어, 매니페스트는: 심도 범위 d=1..n에 연관된 각각의 스트림에 대한, 이용가능한 심도 범위들의 수 n 및 그들의 값들, 스트림에 의해 운반되는 아틀라스의 해상도 Wd x Hd, 및 심도 범위 d=1..n에 연관된 각각의 스트림에 대한, 각각의 GOP 인덱스 t에 대한, 평균 비트 레이트 Ratet,d를 표시한다.
아틀라스의 해상도 Wd x Hd의 값은, 예를 들어, 심도 범위 d에 대한 제2 패치당 포인트들(즉, 픽셀들)의 평균 수와 적어도 동일한 것으로서; 또는 심도 범위 d에 대한 제2 패치당 포인트들(즉, 픽셀들)의 최대 수와 적어도 동일한 것으로서 정의될 수 있다.
후자의 경우에, 렌더링된 비디오 프레임당 정확히 하나의 아틀라스 프레임이 있을 수 있다.
이미 언급된 바와 같이, 매니페스트는 (동일한 또는 전용 채널에서의) 콘텐츠 분배의 시작에서 오프라인으로, 또는 클라이언트(단말기)에 의한 서버로의 명시적 요청과 같은 임의의 적절한 방식을 통해 송신될 수 있다.
대역폭 제한이 없다면, 서버는 (스트림들의 하나의 쌍을 포함하는) 스트림들의 제1 세트 및 (스트림들의 n개의 쌍들을 포함하는) 스트림들의 제2 세트를 단말기에 송신할 수 있다.
변형에서, 각각의 심도 범위 d에 대해, 필요한 대역폭 Ratet,d를 알면, 단말기는 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 선택할 수 있다. 예를 들어, 3D 장면의 투영된 표현(제1 패치들)이 단말기에 완전히 전달될 수 있다고 위에서 논의된 바와 같이, 스트림들의 제1 서브세트는 스트림들의 제1 세트와 동일할 수 있다. 스트림들의 제2 서브세트는 스트림들의 n'개의 쌍들을 포함하고, n'≤n이고, 다운로드될 아틀라스 스트림들의 수는 이용가능한 대역폭 또는 단말기 능력들과 같은 적어도 하나의 단말기 기반 기준에 따라 선택된다.
가장 가까운 심도에 대응하는 스트림들이 우선적으로 다운로드될 수 있다.
렌더링은 모든 스트림들의 완전한 수신으로부터 분리될 수 있고, 제1 아틀라스 스트림이 완료되자마자 시작할 수 있다. 이것은 온 더 플라이(on the fly)로 프로그레시브 렌더링을 허용할 수 있다. (d = 1에 대해) 제1 아틀라스 스트림에 의해 가져오는 제1 레벨의 상세들은 가장 낮은 레이턴시에서 먼저 렌더링되고, (d = 2 ... n'에 대해) 계류중인 다음 스트림들의 수신에 의해 점진적으로 완료된다.
섹터화 없이(즉, 360°의 하나의 각도 섹터로), 렌더링 디바이스에 의해 검색된 패치들의 우선순위는 심도의 인덱스일 수 있고, 최소 인덱스는 도 7에 도시된 바와 같이 뷰포인트로부터의 최단 거리에 대응한다.
적어도 하나의 실시예에 따르면, 이용가능한 심도 범위들의 수 n은 동일한 콘텐츠에 대해 시간에 따라 변할 수 있다. 예를 들어, 그것은 (예를 들어, 서버 측에서 상이한 심도 범위에 대해 생성된 아틀라스들을 병합함으로써) 대부분의 시간 동안 1로 감소될 수 있고, 장면이 더 복잡해질 때의 시간 기간 동안 증가될 수 있다. 그 경우에, 플레이어의 적응적 거동은 플레이어가 그것의 이용가능한 대역폭에 따라 대부분의 필수적 심도 아틀라스들만을 선택하는 것을 허용할 수 있다.
이하의 설명은 먼저 패치들의 뷰포트 기반 전달을 논의할 것이다.
제2 예에 따르면, 3D 장면의 투영된 표현(제1 패치들)의 텍스처 및 심도 성분들은 3D 장면의 표현을 송신하기 위한 디바이스(예를 들어, 서버(10))로부터 3D 장면을 렌더링하기 위한 디바이스(예를 들어, 단말기(30))로 뷰포트 기반 방식으로 부분적으로 전달될 수 있다.
실제로, 볼류메트릭 콘텐츠는 많은 양의 데이터가 전달될 것을 요구할 수 있고, 결과적으로, 이것은 대역폭이 제한될 수 있는 기존의 네트워크들과 항상 호환되는 것은 아니다. 따라서, 그러한 콘텐츠는 종종 뷰포트 기반 방식으로 부분적으로 전달된다.
예를 들어, 고품질 콘텐츠(예를 들어, 전체 장면 표현에 대해 8K 3DoF+ 콘텐츠 또는 그 이상)는 중심 뷰포트(즉, C0의 위치) 또는 캡처 포인트 중 임의의 것(즉, 위치 C1, C2 및 C3)에 중심을 둔 m개의 각도 섹터들(경도에 대해 [Θi1,Θi2], 위도에 대해 [φi1,φi2])로 타일링될 수 있다. 캡처 포인트로부터 보여지는 각도 섹터가 볼류메트릭 콘텐츠를 시각화하는 사용자에 의해 보여지는 각도 섹터와 동등할 수 있기 때문에 캡처 포인트에 관한 제2 접근법은 더 관련된다.
각각의 섹터에 대해, 이 장면 하위 부분에 대응하는 볼류메트릭 데이터를 운반하는 스트림들의 세트가 개시된다.
이 뷰포트 기반 접근법에서, 콘텐츠는 다음과 같이 (2 + n x 2) x m개의 스트림들로 조직될 수 있다: m개의 섹터들에 대해, 제1 패치(들)의 텍스처 성분들 및 심도 성분들을 각각 전송하기 위한, 스트림들의 m개의 쌍을 포함하는 제1 세트, m개의 섹터들에 대해, 심도 범위의 n개의 레벨들에 연관된 제2 패치들에 대해 생성된 n개의 아틀라스(들)의 텍스처 성분들 및 심도 성분들을 각각 전송하기 위한 스트림들의 m x n개의 쌍들을 포함하는 제2 세트, 및 아틀라스(들)에 연관된 메타데이터.
대역폭 제한이 없다면, 서버는 (스트림들의 m개의 쌍들을 포함하는) 스트림들의 제1 세트 및 (스트림들의 m x n개의 쌍들을 포함하는) 스트림들의 제2 세트를 단말기에 송신할 수 있다. 이 경우, 이용가능한 대역폭이 모든 장면을 플레이어에게 전달하기에 충분하다면, 심도 기반 전달은 실제로 m=1(예를 들어, 단 하나의 섹터)의 뷰포트 기반 전달이다.
변형에서, 클라이언트는 스트림들의 m'개의 쌍들의 제1 서브세트 및 스트림들의 m' x n'개의 쌍의 제2 서브세트를 선택할 수 있으며, m'≤m 및 n'≤n이고, 다운로드될 스트림들의 수는 이용가능한 대역폭 또는 단말기 능력들과 같은 적어도 하나의 단말기 기반 기준에 따라 선택된다.
렌더링 디바이스 상에서, 각 시간 간격(GOP)에 대해, 다음 뷰포트 및 이 다음 뷰포트를 커버하는 섹터가 예측될 수 있다. 따라서, 단말기는 다음 GOP 지속기간 동안 해당 부분과 관련된 스트림들만을 서버로부터 다운로드할 수 있다. 이 동작은 매 GOP마다 반복될 수 있다.
다른 실시예에서, 오버-프로비저닝(over-provisioning) 목적을 위해, 단말기는 다음 예측된 뷰포트와 관련된 스트림들 외에, 예측된 뷰포트의 이웃을 커버하기 위한 보충 스트림들을 다운로드할 수 있다.
적어도 하나의 실시예에 따르면, 아틀라스들은 심도 및 각도 섹터에 의해 정의될 수 있다. 그러한 경우에, 아틀라스들의 우선순위는 2개의 파라미터들: 사용자의 위치로부터의 심도 및 사용자의 응시 방향에 대한 각도에 따라 정의될 수 있다. 도 8은 그들이 나타내는 포인트들의 위치에 따라 플레이어에 의해 검색될 아틀라스들의 우선순위를 도시한다. 도 8에 도시된 바와 같이, 심도의 최소 인덱스(심도 1) 및 사용자의 시점에 대응하는 각도 섹터(S0)에 대해 획득된 아틀라스들이 먼저 검색될 수 있다. 그 후, 심도의 직접 더 높은 인덱스(심도 2) 및 사용자의 시점에 대응하는 각도 섹터(S0)에 대해 획득된 아틀라스들은 물론, 심도의 최소 인덱스(심도 1) 및 사용자의 시점 대응하는 각도 섹터에 인접한 각도 섹터(S1, S-1)에 대한 아틀라스들이 검색될 수 있는 등으로 된다.
물론, 심도 범위들 및 각도 섹터들의 수 및 크기는 도 8에 도시된 것들에 한정되지 않는다. 특히, 각도 섹터들 각각의 심도 범위들의 크기는 각각 섹터마다, 심도 범위마다 상이할 수 있다.
심도 기반 전달 접근법과 마찬가지로, 하나의 매니페스트는 상이한 스트림들의 조직을 기술할 수 있다. 섹터화의 혜택을 받고 클라이언트에게 패치 위치들을 제공하기 위해, 매니페스트는 또한, 예를 들어, 구면 좌표들로 표현된 3D 장면 내의 패치 위치를 포함할 수 있다. 패치는 볼륨을 나타내고 포인트를 나타내지 않을 수 있기 때문에(그것은 텍스처 성분 및 심도 성분을 가짐), 그 위치는 패치의 중심 포인트(예를 들어, 무게 중심)를 나타내는 단일 좌표로서 또는 패치를 포함하는 볼륨 요소의 구면 좌표들 (r,θ,φ)/크기 (dr, r sinφ dθ, rdφ)의 세트로서 표현될 수 있다.
마지막으로, 패치들의 심도 기반 전달 접근법과 패치들의 뷰포트 기반 전달 접근법 둘다가 결합될 수 있다는 점에 유의해야 한다.
이하의 설명은 디바이스들을 논의할 것이다.
도 9는 본 개시내용의 적어도 하나의 실시예에 따른 3D 장면을 표현하는 패치들을 생성하기 위한 디바이스, 3D 장면의 표현을 송신하기 위한 디바이스, 또는 3D 장면을 렌더링하기 위한 디바이스의 예를 개략적으로 도시한다.
3D 장면을 나타내는 패치들을 생성하기 위한 디바이스는, 예를 들어, 비휘발성 메모리 93G(예를 들어, 판독 전용 메모리(ROM) 또는 하드 디스크), 휘발성 메모리 91G(예를 들어, 랜덤 액세스 메모리 또는 RAM) 및 적어도 하나의 프로세서 92G를 포함할 수 있다. 비휘발성 메모리 93G는 비일시적인 컴퓨터 판독가능 캐리어 매체일 수 있다. 이것은 그 다양한 실시예들에서 전술한 방법의 구현을 가능하게 하기 위해 프로세서 92G에 의해 실행되는 실행가능 프로그램 코드 명령어들을 저장할 수 있다.
특히, 프로세서 92G는 다음의 프로세스들, 즉, 제1 뷰포인트로부터 3D 장면의 제1 뷰를 획득하고; 상기 제1 뷰로부터 적어도 하나의 제1 패치를 생성하고―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―; 적어도 하나의 제2 뷰포인트로부터 3D 장면의 적어도 하나의 제2 뷰를 획득하는 프로세스들을 수행하도록 구성된다. 상기 제2 뷰 중 적어도 하나에 대해, 프로세서 92G는 다음의 프로세스들, 즉, 3D 장면의 다른 뷰에서 보이지 않는 제2 뷰의 적어도 하나의 포인트를 식별하고; 상기 적어도 하나의 포인트가 속하는 심도 범위를 결정하고; m개의 각도 섹터들 중에서의 적어도 하나의 각도 섹터에 대해 그리고 n개의 심도 범위들 중에서의 적어도 하나의 심도 범위에 대해―m 또는 n 중 적어도 하나는 2 이상임―, 상기 각도 섹터 및 상기 심도 범위에 속하는 포인트들에 대해 상기 제2 뷰로부터 적어도 하나의 제2 패치를 생성하고―상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함함―; 동일한 각도 섹터 및 동일한 심도 범위에 속하는 포인트들에 대해 생성된 제2 패치 중 적어도 하나를 함께 패킹함으로써 적어도 하나의 아틀라스를 구축하는 프로세스들을 수행하도록 더 구성된다.
초기화 시에, 전술한 프로그램 코드 명령어들은 프로세서 92G에 의해 실행되도록 비휘발성 메모리 93G로부터 휘발성 메모리 91G로 전송될 수 있다. 휘발성 메모리 91G는 마찬가지로 이 실행을 위해 요구되는 변수들 및 파라미터들을 저장하기 위한 레지스터들을 포함할 수 있다.
3D 장면의 표현을 송신하기 위한 디바이스는, 예를 들어, 비휘발성 메모리 93T(예를 들어, 판독 전용 메모리(ROM) 또는 하드 디스크), 휘발성 메모리 91T(예를 들어, 랜덤 액세스 메모리 또는 RAM) 및 적어도 하나의 프로세서 92T를 포함할 수 있다. 비휘발성 메모리 93T는 비일시적 컴퓨터 판독가능 캐리어 매체일 수 있다. 그것은, 그의 다양한 실시예들에서 앞서 기술된 방법의 구현을 가능하게 하기 위해 프로세서 92T에 의해 실행되는, 실행가능 프로그램 코드 명령어들을 저장할 수 있다.
특히, 프로세서 92T는 다음의 프로세스들, 즉, 3D 장면의 제1 뷰로부터 생성된 적어도 하나의 제1 패치를 획득하고―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―; 3D 장면의 적어도 하나의 제2 뷰로부터 생성된 적어도 하나의 아틀라스를 획득하고―상기 적어도 하나의 아틀라스는 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함함―; 적어도 하나의 단말기 기반 전달 기준에 따라, 상기 제1 패치 또는 패치들로부터의 스트림들의 m'개의 쌍들의 제1 서브세트 및 상기 아틀라스 또는 아틀라스들로부터의 스트림들의 m' x n'개의 쌍들의 제2 서브세트를 생성하고―m'≤m 및 n'≤n이고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함함―, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 단말기에 송신하는 프로세스들을 수행하도록 구성될 수 있다.
초기화 시에, 전술한 프로그램 코드 명령어들은 프로세서 92T에 의해 실행되도록 비휘발성 메모리 93T로부터 휘발성 메모리 91T로 전송될 수 있다. 휘발성 메모리 91T는 마찬가지로 이 실행을 위해 요구되는 변수들 및 파라미터들을 저장하기 위한 레지스터들을 포함할 수 있다.
3D 장면을 렌더링하기 위한 디바이스는, 예를 들어, 비휘발성 메모리 93R(예를 들어, 판독 전용 메모리(ROM) 또는 하드 디스크), 휘발성 메모리 91R(예를 들어, 랜덤 액세스 메모리 또는 RAM) 및 적어도 하나의 프로세서 92R를 포함할 수 있다. 비휘발성 메모리 93R은 비일시적인 컴퓨터 판독가능 캐리어 매체일 수 있다. 그것은, 그 다양한 실시예들에서 전술된 방법의 구현을 가능하게 하기 위해 프로세서 92R에 의해 실행되는 실행가능 프로그램 코드 명령어들을 저장할 수 있다.
특히, 프로세서 92R은 적어도 하나의 단말기 기반 전달 기준에 따라 생성된, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 수신하도록 구성될 수 있고, 상기 제1 서브세트는 적어도 하나의 제1 패치로부터 생성된 스트림들의 m'개의 쌍들을 포함하고, 상기 제2 서브세트는 적어도 하나의 아틀라스로부터 생성된 스트림들의 m' x n'개의 쌍들을 포함하고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함하고, 상기 적어도 하나의 제1 패치는 3D 장면의 제1 뷰로부터 생성되고 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 아틀라스는 3D 장면의 적어도 하나의 제2 뷰로부터 생성되고, 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, m'≤m 및 n'≤n이다. 프로세서 92R은 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트로부터 3D 장면의 표현을 구축하도록 더 구성될 수 있다.
초기화 시에, 전술한 프로그램 코드 명령어들은 프로세서 92R에 의해 실행되도록 비휘발성 메모리 93R로부터 휘발성 메모리 91R로 전송될 수 있다. 휘발성 메모리 91R은 마찬가지로 이 실행을 위해 요구되는 변수들 및 파라미터들을 저장하기 위한 레지스터들을 포함할 수 있다.
본 개시내용의 적어도 하나의 실시예에 따른 방법들은 다음의 방식들 중 하나를 통해 동등하게 잘 구현될 수 있다: (1) PC 타입 장치, DSP(digital signal processor) 또는 마이크로컨트롤러와 같은 재프로그램가능 컴퓨팅 머신에 의해 실행되는 프로그램 코드 명령어들의 세트의 실행에 의한 것―이 프로그램 코드 명령어들은 분리가능(예를 들어, 플로피 디스크, CD-ROM 또는 DVD-ROM)하거나 분리가능하지 않은 비일시적 컴퓨터 판독가능 캐리어 매체에 저장될 수 있음―; 또는 (2) FPGA(Field Programmable Gate Array), ASIC(Application-Specific Integrated Circuit) 또는 임의의 전용 하드웨어 컴포넌트와 같은 전용 머신 또는 컴포넌트에 의한 것.
즉, 본 개시내용은 컴퓨터 프로그램 명령어들의 형태의 순수한 소프트웨어 기반 구현에 제한되지 않고, 하드웨어 형태 또는 하드웨어부와 소프트웨어부를 조합한 임의의 형태로 또한 구현될 수 있다.
도면들에서의 흐름도 및/또는 블록도들은 본 개시내용의 다양한 실시예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 구성, 동작 및 기능을 도시한다. 이와 관련하여, 흐름도 또는 블록도들 내의 각각의 블록은 지정된 논리 기능(들)을 구현하기 위한 하나 이상의 실행가능 명령어를 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다.
일부 대안적인 구현들에서, 블록에 표시된 기능들은 도면들에 표시된 순서와 다르게 발생할 수 있다는 점에도 유의해야 한다. 예를 들어, 연속하여 도시된 2개의 블록들은 사실상 실질적으로 동시에 실행될 수 있거나, 블록들은 때때로 역순으로 실행될 수 있거나, 블록들은 수반된 기능에 따라 대안적인 순서로 실행될 수 있다. 블록도들 및/또는 흐름도 예시의 각각의 블록, 및 블록도들 및/또는 흐름도 예시에서의 블록들의 조합들은 특정된 기능들 또는 동작들을 수행하는 특수 목적 하드웨어 기반 시스템들, 또는 특수 목적 하드웨어와 컴퓨터 명령어들의 조합들에 의해 구현될 수 있다는 점에도 유의해야 한다. 명시적으로 기재되지는 않지만, 본 실시예들은 임의의 조합 또는 하위조합으로 사용될 수 있다.

Claims (23)

  1. 3D 장면의 표현을 단말기에 송신하기 위한 방법으로서,
    공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 상기 공간을 n개의 심도 범위들로 분할하는 단계;
    상기 3D 장면의 제1 뷰로부터 생성된 적어도 하나의 제1 패치를 획득(11)하는 단계―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―;
    상기 3D 장면의 적어도 하나의 제2 뷰로부터 생성된 적어도 하나의 아틀라스를 획득(12)하는 단계―상기 적어도 하나의 아틀라스는 상기 3D 장면의 다른 뷰에서 보이지 않고 상기 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 상기 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―;
    적어도 하나의 단말기 기반 전달 기준에 따라:
    상기 제1 패치 또는 패치들로부터의 스트림들의 m'개의 쌍들을 포함하는 스트림들의 제1 서브세트―m'은 상기 m개의 각도 섹터들의 전체 또는 서브세트임―, 및
    상기 적어도 하나의 아틀라스로부터의 스트림들의 m' x n'개의 쌍들을 포함하는 스트림들의 제2 서브세트―m'≤m 및 n'≤n이고, 스트림들의 각각의 쌍은 상기 텍스처 성분들을 송신하기 위한 스트림 및 상기 심도 성분들을 송신하기 위한 스트림을 포함함―를 생성(13)하는 단계; 및
    상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트를 상기 단말기에 송신(14)하는 단계를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 생성하는 단계 및 송신하는 단계는 상기 적어도 하나의 단말기 기반 전달 기준의 변경 후에 주기적으로 행해지는, 방법.
  3. 제1항에 있어서,
    상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트의 조직을 설명하는 설명 데이터를 상기 단말기에 송신하는 단계를 또한 포함하는, 방법.
  4. 제3항에 있어서,
    상기 설명 데이터는,
    이용가능한 심도 범위들의 수 및 그들의 값들,
    이용가능한 각도 섹터들의 수 및 그들의 위치들,
    상기 스트림들의 제2 서브세트의 각각의 스트림에 대한 상기 적어도 하나의 아틀라스의 해상도,
    상기 적어도 하나의 아틀라스가 GOP에 함께 패킹되는 경우, 각각의 GOP에 대한 그리고 상기 스트림들의 제2 서브세트의 각각의 스트림에 대한 평균 비트 레이트, 및
    상기 3D 장면 내의 상기 제1 및/또는 제2 패치들의 위치
    중 적어도 하나를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 설명 데이터는 상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트 전에 송신되는, 방법.
  6. 제1항에 있어서,
    상기 적어도 하나의 제1 패치를 획득하는 단계는 상기 제1 뷰로부터 생성된 모든 상기 제1 패치들을 획득하는 단계를 포함하고, 상기 적어도 하나의 아틀라스를 획득하는 단계는 상기 3D 장면의 모든 상기 제2 뷰들로부터 각도 섹터당 및 심도 범위당 생성된 모든 아틀라스들을 획득하는 단계를 포함하는, 방법.
  7. 3D 장면의 표현을 단말기에 송신하기 위한 디바이스로서,
    적어도 하나의 프로세서와 연관된 메모리를 포함하고, 상기 적어도 하나의 프로세서는,
    공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 상기 공간을 n개의 심도 범위들로 분할하고;
    상기 3D 장면의 제1 뷰로부터 생성된 적어도 하나의 제1 패치를 획득(11)하고―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―;
    상기 3D 장면의 적어도 하나의 제2 뷰로부터 생성된 적어도 하나의 아틀라스를 획득(12)하고―상기 적어도 하나의 아틀라스는 상기 3D 장면의 다른 뷰에서 보이지 않고 상기 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 상기 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―;
    적어도 하나의 단말기 기반 전달 기준에 따라:
    상기 제1 패치 또는 패치들로부터의 스트림들의 m'개의 쌍들을 포함하는 스트림들의 제1 서브세트―m'은 상기 m개의 각도 섹터들의 전체 또는 서브세트임―, 및
    상기 적어도 하나의 아틀라스로부터의 스트림들의 m' x n'개의 쌍들을 포함하는 스트림들의 제2 서브세트―m'≤m 및 n'≤n이고, 스트림들의 각각의 쌍은 상기 텍스처 성분들을 송신하기 위한 스트림 및 상기 심도 성분들을 송신하기 위한 스트림을 포함함―를 생성(13)하고;
    상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트를 상기 단말기에 송신(14)하도록 구성되는,
    디바이스.
  8. 제7항에 있어서,
    상기 스트림들의 제1 및 제2 서브세트는 주기적으로 및/또는 상기 적어도 하나의 단말기 기반 전달 기준의 변경 후에 생성 및 송신되는, 디바이스.
  9. 제7항에 있어서,
    상기 적어도 하나의 프로세서는 상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트의 조직을 설명하는 설명 데이터를 상기 단말기에 송신하도록 더 구성되는, 디바이스.
  10. 제9항에 있어서,
    상기 설명 데이터는,
    이용가능한 심도 범위들의 수 및 그들의 값들,
    이용가능한 각도 섹터들의 수 및 그들의 위치들,
    상기 스트림들의 제2 서브세트의 각각의 스트림에 대한 상기 적어도 하나의 아틀라스의 해상도,
    상기 적어도 하나의 아틀라스가 GOP에 함께 패킹되는 경우, 각각의 GOP에 대한 그리고 상기 스트림들의 제2 서브세트의 각각의 스트림에 대한 평균 비트 레이트, 및
    상기 3D 장면 내의 상기 제1 및/또는 제2 패치들의 위치
    중 적어도 하나를 포함하는, 디바이스.
  11. 제10항에 있어서,
    상기 설명 데이터는 상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트 전에 송신되는, 디바이스.
  12. 제7항에 있어서,
    상기 적어도 하나의 제1 패치를 획득하기 위해, 상기 적어도 하나의 프로세서는 상기 제1 뷰로부터 생성된 모든 상기 제1 패치들을 획득하도록 더 구성되고, 적어도 하나의 아틀라스를 획득하기 위해, 상기 적어도 하나의 프로세서는 상기 3D 장면의 모든 상기 제2 뷰들로부터 각도 섹터당 및 심도 범위당 생성된 모든 아틀라스들을 획득하도록 더 구성되는, 디바이스.
  13. 단말기 상에 3D 장면을 렌더링하기 위한 방법으로서,
    공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 상기 공간을 n개의 심도 범위들로 분할하는 단계;
    적어도 하나의 단말기 기반 전달 기준에 따라 생성된, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 수신(31)하는 단계―상기 제1 서브세트는 적어도 하나의 제1 패치로부터 생성된 스트림들의 m'개의 쌍들을 포함하고, 상기 제2 서브세트는 적어도 하나의 아틀라스로부터 생성된 스트림들의 m' x n'개의 쌍들을 포함하고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함하고, m'은 상기 m개의 각도 섹터들의 전체 또는 서브세트이고, n'은 상기 n개의 심도 범위들의 전체 또는 서브세트이고, 상기 적어도 하나의 제1 패치는 상기 3D 장면의 제1 뷰로부터 생성되고 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 아틀라스는 상기 3D 장면의 적어도 하나의 제2 뷰로부터 생성되고, 상기 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, m'≤m 및 n'≤n이고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 및
    상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트로부터 상기 3D 장면의 표현을 구축(32)하는 단계를 포함하는, 방법.
  14. 제13항에 있어서,
    상기 스트림들의 제2 서브세트는 상기 단말기의 사용자의 시점으로부터 기원하는 최소 심도 범위에 대해 구축된 상기 적어도 하나의 아틀라스를 포함하는, 방법.
  15. 제13항에 있어서,
    상기 스트림들의 제2 서브세트는 상기 단말기의 사용자의 시점에 중심을 둔 상기 각도 섹터에 대해 구축된 상기 적어도 하나의 아틀라스를 포함하는, 방법.
  16. 제13항에 있어서,
    상기 단말기 기반 전달 기준은,
    상기 3D 장면의 표현을 송신하기 위한 디바이스와 상기 단말기 사이의 통신 채널 상에서 이용가능한 대역폭,
    상기 단말기의 사용자가 보는 적어도 하나의 각도 섹터,
    상기 단말기의 능력들, 및
    상기 단말기로부터의 요청
    을 포함하는 그룹에 속하는, 방법.
  17. 3D 장면을 렌더링하기 위한 단말기로서,
    적어도 하나의 프로세서와 연관된 메모리를 포함하고, 상기 적어도 하나의 프로세서는,
    공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 뷰포트로부터의 각도 거리에 대응함―로, 그리고 상기 공간을 n개의 심도 범위들로 분할하고;
    적어도 하나의 단말기 기반 전달 기준에 따라 생성된, 스트림들의 제1 서브세트 및 스트림들의 제2 서브세트를 수신(31)하고―상기 제1 서브세트는 적어도 하나의 제1 패치로부터 생성된 스트림들의 m'개의 쌍들을 포함하고, 상기 제2 서브세트는 적어도 하나의 아틀라스로부터 생성된 스트림들의 m' x n'개의 쌍들을 포함하고, 스트림들의 각각의 쌍은 텍스처 성분들을 송신하기 위한 스트림 및 심도 성분들을 송신하기 위한 스트림을 포함하고, 상기 적어도 하나의 제1 패치는 상기 3D 장면의 제1 뷰로부터 생성되고 텍스처 성분 및 심도 성분을 포함하고, m'은 상기 m개의 각도 섹터들의 전체 또는 서브세트이고, n'은 상기 n개의 심도 범위들의 전체 또는 서브세트이고, 상기 적어도 하나의 아틀라스는 상기 3D 장면의 적어도 하나의 제2 뷰로부터 생성되고, 상기 3D 장면의 다른 뷰에서 보이지 않고 m개의 각도 섹터들 중에서의 동일한 각도 섹터 및 n개의 심도 범위들 중에서의 동일한 심도 범위에 속하는 상기 제2 뷰 중 하나의 적어도 하나의 포인트에 대해 생성된 적어도 하나의 제2 패치를 함께 패킹함으로써 구축되고, m 또는 n 중 적어도 하나는 2 이상이고, 상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, m'≤m 및 n'≤n이고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―;
    상기 스트림들의 제1 서브세트 및 상기 스트림들의 제2 서브세트로부터 상기 3D 장면의 표현을 구축(32)하도록 구성되는,
    단말기.
  18. 제17항에 있어서,
    상기 스트림들의 제2 서브세트는 상기 단말기의 사용자의 시점으로부터 기원하는 최소 심도 범위에 대해 구축된 상기 적어도 하나의 아틀라스를 포함하는, 디바이스.
  19. 제17항에 있어서,
    상기 스트림들의 제2 서브세트는 상기 단말기의 사용자의 시점에 중심을 둔 상기 각도 섹터에 대해 구축된 상기 적어도 하나의 아틀라스를 포함하는, 디바이스.
  20. 제17항에 있어서,
    상기 단말기 기반 전달 기준은,
    상기 3D 장면의 표현을 송신하기 위한 디바이스와 상기 단말기 사이의 통신 채널 상에서 이용가능한 대역폭,
    상기 단말기의 사용자가 보는 적어도 하나의 각도 섹터,
    상기 단말기의 능력들, 및
    상기 단말기로부터의 요청
    을 포함하는 그룹에 속하는, 디바이스.
  21. 3D 장면을 표현하는 패치들을 생성하기 위한 방법으로서,
    제1 뷰포인트로부터, 3D 장면의 제1 뷰를 획득(21)하는 단계;
    상기 제1 뷰로부터 적어도 하나의 제1 패치를 생성(22)하는 단계―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―;
    적어도 하나의 제2 뷰포인트로부터, 상기 3D 장면의 적어도 하나의 제2 뷰를 획득(23)하는 단계; 및
    3D 장면 공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 주어진 뷰포트로부터의 거리에 대응함―로, 그리고 n개의 심도 범위들로 분할하는 단계를 포함하고,
    상기 제2 뷰 중 적어도 하나에 대해, 상기 방법은,
    상기 3D 장면의 다른 뷰에서 보이지 않는 상기 제2 뷰의 적어도 하나의 포인트를 식별(24)하는 단계;
    상기 적어도 하나의 포인트가 속하는 심도 범위를 결정(25)하는 단계;
    상기 m개의 각도 섹터들 중에서의 적어도 하나의 각도 섹터에 대해 그리고 n개의 심도 범위들 중에서의 적어도 하나의 심도 범위에 대해―m 또는 n 중 적어도 하나는 2 이상임―, 상기 각도 섹터 및 상기 심도 범위에 속하는 상기 포인트들에 대해 상기 제2 뷰로부터 적어도 하나의 제2 패치를 생성(26)하는 단계―상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―; 및
    동일한 각도 섹터 및 동일한 심도 범위에 속하는 상기 포인트들에 대해 생성된 상기 제2 패치 중 적어도 하나를 함께 패킹함으로써 적어도 하나의 아틀라스를 구축(27)하는 단계를 더 포함하는,
    방법.
  22. 3D 장면을 표현하는 패치들을 생성하기 위한 디바이스로서,
    적어도 하나의 프로세서와 연관된 메모리를 포함하고, 상기 적어도 하나의 프로세서는,
    제1 뷰포인트로부터, 3D 장면의 제1 뷰를 획득(21)하고;
    상기 제1 뷰로부터 적어도 하나의 제1 패치를 생성(22)하고―상기 적어도 하나의 제1 패치는 텍스처 성분 및 심도 성분을 포함함―;
    적어도 하나의 제2 뷰포인트로부터, 상기 3D 장면의 적어도 하나의 제2 뷰를 획득(23)하고;
    3D 장면 공간을 m개의 각도 섹터들―상기 m개의 각도 섹터들 각각은 주어진 뷰포트로부터의 거리에 대응함―로, 그리고 n개의 심도 범위들로 분할하도록 구성되고,
    상기 제2 뷰 중 적어도 하나에 대해, 상기 적어도 하나의 프로세서는,
    상기 3D 장면의 다른 뷰에서 보이지 않는 상기 제2 뷰의 적어도 하나의 포인트를 식별(24)하고;
    상기 적어도 하나의 포인트가 속하는 심도 범위를 결정(25)하고;
    상기 m개의 각도 섹터들 중에서의 적어도 하나의 각도 섹터에 대해 그리고 n개의 심도 범위들 중에서의 적어도 하나의 심도 범위에 대해―m 또는 n 중 적어도 하나는 2 이상임―, 상기 각도 섹터 및 상기 심도 범위에 속하는 상기 포인트들에 대해 상기 제2 뷰로부터 적어도 하나의 제2 패치를 생성(26)하고―상기 적어도 하나의 제2 패치는 텍스처 성분 및 심도 성분을 포함하고, 상기 적어도 하나의 제1 패치 및 상기 적어도 하나의 제2 패치 각각은 섹터 및 심도 중 적어도 하나에 기초함―;
    동일한 각도 섹터 및 동일한 심도 범위에 속하는 상기 포인트들에 대해 생성된 상기 제2 패치 중 적어도 하나를 함께 패킹함으로써 적어도 하나의 아틀라스를 구축(27)하도록 더 구성되는,
    디바이스.
  23. 통신 네트워크로부터 다운로드가능하고/하거나 컴퓨터에 의해 판독가능한 매체 상에 기록되고/되거나 프로세서에 의해 실행가능한 컴퓨터 프로그램 제품으로서, 프로세서에 의해 실행될 때, 제1항, 제3항 내지 제8항, 또는 제10항 내지 제13항 중 어느 한 항에 따른 방법을 수행하도록 적응된 소프트웨어 코드를 포함하는 컴퓨터 프로그램 제품.
KR1020227001565A 2019-07-15 2020-07-15 3d 장면을 송신 및 렌더링하기 위한 방법들, 패치들을 생성하기 위한 방법, 및 대응하는 디바이스들 및 컴퓨터 프로그램들 KR20220054283A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19305939.1 2019-07-15
EP19305939.1A EP3767953A1 (en) 2019-07-15 2019-07-15 Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
PCT/US2020/042193 WO2021011695A1 (en) 2019-07-15 2020-07-15 Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs

Publications (1)

Publication Number Publication Date
KR20220054283A true KR20220054283A (ko) 2022-05-02

Family

ID=67539368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227001565A KR20220054283A (ko) 2019-07-15 2020-07-15 3d 장면을 송신 및 렌더링하기 위한 방법들, 패치들을 생성하기 위한 방법, 및 대응하는 디바이스들 및 컴퓨터 프로그램들

Country Status (5)

Country Link
US (2) US11893679B2 (ko)
EP (2) EP3767953A1 (ko)
KR (1) KR20220054283A (ko)
CN (1) CN114208201A (ko)
WO (1) WO2021011695A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230177737A1 (en) * 2021-12-06 2023-06-08 Tencent America LLC Systems and method for adaptive filtering in patch generation for video-based point cloud coding

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9942622B2 (en) * 2014-01-24 2018-04-10 Hiperwall, Inc. Methods and systems for synchronizing media stream presentations
US10225546B2 (en) 2016-02-26 2019-03-05 Qualcomm Incorporated Independent multi-resolution coding
EP3432581A1 (en) * 2017-07-21 2019-01-23 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
US20200228777A1 (en) 2017-09-15 2020-07-16 InterDigita! VC Holdings, Inc. Methods, devices and stream for encoding and decoding three degrees of freedom and volumetric compatible video stream
EP3489900A1 (en) * 2017-11-23 2019-05-29 Thomson Licensing Method, apparatus and stream for encoding/decoding volumetric video

Also Published As

Publication number Publication date
CN114208201A (zh) 2022-03-18
US20220284661A1 (en) 2022-09-08
US20240119660A1 (en) 2024-04-11
WO2021011695A1 (en) 2021-01-21
EP3767953A1 (en) 2021-01-20
US11893679B2 (en) 2024-02-06
EP4000270A1 (en) 2022-05-25

Similar Documents

Publication Publication Date Title
KR102191875B1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
CN109076255B (zh) 发送、接收360度视频的方法及设备
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
KR20210005524A (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US11430156B2 (en) Apparatus, a method and a computer program for volumetric video
WO2019135024A1 (en) An apparatus, a method and a computer program for volumetric video
WO2019034808A1 (en) CODING AND DECODING VOLUMETRIC VIDEO
KR20200083616A (ko) 볼류메트릭 비디오를 인코딩/디코딩하기 위한 방법, 장치 및 스트림
JP2019024197A (ja) ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト
JP2021502033A (ja) ボリュメトリックビデオを符号化/復号する方法、装置、およびストリーム
JP7035088B2 (ja) 魚眼ビデオデータのための高レベルシグナリング
JP7177034B2 (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
WO2023029858A1 (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
US11509879B2 (en) Method for transmitting video, apparatus for transmitting video, method for receiving video, and apparatus for receiving video
WO2019229293A1 (en) An apparatus, a method and a computer program for volumetric video
JP2023139163A (ja) ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート
WO2018067832A1 (en) Geometry sequence encoder and decoder
US20240119660A1 (en) Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
WO2019115867A1 (en) An apparatus, a method and a computer program for volumetric video
CN114930812B (zh) 用于解码3d视频的方法和装置
WO2018109265A1 (en) A method and technical equipment for encoding media content
EP3698332A1 (en) An apparatus, a method and a computer program for volumetric video
CN110114759A (zh) 信息处理装置、其控制方法和计算机程序
KR102647019B1 (ko) 멀티뷰 비디오 프로세싱 방법 및 장치
KR20220054430A (ko) 볼류메트릭 비디오 콘텐츠를 전달하기 위한 방법 및 장치들

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal