KR102194758B1 - 자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱 - Google Patents

자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱 Download PDF

Info

Publication number
KR102194758B1
KR102194758B1 KR1020197015195A KR20197015195A KR102194758B1 KR 102194758 B1 KR102194758 B1 KR 102194758B1 KR 1020197015195 A KR1020197015195 A KR 1020197015195A KR 20197015195 A KR20197015195 A KR 20197015195A KR 102194758 B1 KR102194758 B1 KR 102194758B1
Authority
KR
South Korea
Prior art keywords
video content
view video
free view
decoder
decoded
Prior art date
Application number
KR1020197015195A
Other languages
English (en)
Other versions
KR20190068622A (ko
Inventor
다닐로 그라지오시
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20190068622A publication Critical patent/KR20190068622A/ko
Application granted granted Critical
Publication of KR102194758B1 publication Critical patent/KR102194758B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Abstract

자유 시점 비디오 스트리밍을 위한 디코더 중심 코덱은 멀티-계층 자유 시점 비디오의 캡처, 전처리, 인코딩, 디코딩 및 렌더링의 보다 효율적이고 정확한 프로세스를 가능하게 한다.

Description

자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱
본 출원은 35 U.S.C.§119(e)에 의거하여 2016년 11월 28일에 출원된 "자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱"이라는 명칭의 미국 가특허 출원 제62/426,900호의 우선권을 주장하며, 이 미국 출원은 그 전체가 모든 목적들을 위해 본원에 참고 문헌으로 포함된다.
본 발명은 3차원 그래픽들에 관한 것이다. 보다 구체적으로, 본 발명은 스파스 뷰의 멀티-뷰(sparse view multi-view) 3차원 그래픽들에 관한 것이다.
자유 시점 비디오(Free Viewpoint Video)(FVV)는 사용자가 언제든지 비디오의 시점(viewpoint)을 변경할 수 있게 하는 비디오이다. 예를 들어, 스포츠 비디오를 시청하는 사용자는 스포츠 비디오 시청에서 홈 플레이트 후방의 관점에서 외야로부터의 관점으로 변경할 수 있다. 이를 통해 사용자들/시청자들은 고유한 관점에서의 콘텐츠를 볼 수 있다.
FVV를 전송하는 것은, 인코더 측에서 디코더 측으로 카메라 메타데이터를 전송할 때 생성되는 병목 현상과 같이, 뷰 종속(view-dependent) FVV를 스트리밍하려고 할 때 특히 어려움이 있다.
자유 시점 비디오 스트리밍을 위한 디코더 중심 코덱은 멀티-계층 자유 시점 비디오(multi-layer free-viewpoint video)의 캡처, 전처리, 인코딩, 디코딩 및 렌더링의 보다 효율적이고 정확한 프로세스를 가능하게 한다.
일 양태에서, 방법은 자유 시점 비디오 콘텐츠를 전처리하는 단계, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계, 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계, 및 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스(atlas) 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. UV 아틀라스 생성은 추가의 메타데이터를 가진 멀티-계층 텍스처를 생성하여, 자유 시점 비디오 콘텐츠의 뷰 종속 특성들을 보존한다. 뷰 독립 정보(예를 들어, 단일 계층 UV 맵들) 대 뷰 종속 정보(예를 들어, 추가의 메타데이터를 가진 멀티-계층 UV 맵)의 사용은 디코더로 시그널링될 수 있다. 메타데이터의 예로서, 인코더는 카메라 구성(예를 들어, 장면을 캡처하는 다수의 카메라들의 외부적 및 내부적 파라미터들)을 전송할 수 있으며, 각 텍스처 계층에 대해 그 특정 텍스처 정보에 기여한 카메라들의 ID들을 특정 UV 계층에 전송할 수 있으며, 그에 따라, 디코더는 렌더링되는 시야 위치(rendered viewing position)에 따라 최상의 카메라를 선택할 수 있게 된다. 디코더 중심의 아키텍처로 자유 시점 비디오 콘텐츠를 인코딩하는 것은 뷰 종속 정보(view-dependent information)의 사용을 시그널링하는 것, 지오메트리 인코더(geometry encoder)를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다. 상기 방법은 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성하는 단계를 추가로 포함한다. 상기 방법은 최대 10 개의 비디오 카메라를 사용하여 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함한다. 상기 방법은 다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함한다.
다른 양태에서, 장치는, 자유 시점 비디오 콘텐츠를 전처리하고, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 애플리케이션을 저장하는 비 일시적 메모리, 및 메모리에 연결되어, 애플리케이션을 처리하도록 구성된 프로세서를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스(atlas) 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다.
또 다른 양태에서, 장치는, 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성함으로써 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고, 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 애플리케이션을 저장하는 비 일시적 메모리, 및 메모리에 연결되어, 애플리케이션을 처리하도록 구성된 프로세서를 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다.
또 다른 양태에서, 시스템은, 자유 시점 비디오 콘텐츠를 캡처하도록 각각 구성된 복수의 카메라 디바이스들; 자유 시점 비디오 콘텐츠를 전처리하고, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하도록 구성된 제1 컴퓨팅 디바이스; 및 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고, 디코딩된 자유 시점 비디오 콘텐츠를 제2 컴퓨팅 디바이스 상에 렌더링하도록 구성되는 제2 컴퓨팅 디바이스를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다. 제2 컴퓨팅 디바이스는 추가로, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성하기 위해 구성된다.
도 1은 일부 실시예들에 따른 시점 비디오 아키텍처들(viewpoint video architectures)에서 수행되는 동작들의 흐름도를 도시한다.
도 2는 일부 실시들예에 따른 자유 시점 비디오 데이터 콘텐츠의 압축 및 전송을 위한 예시적인 실시예들을 도시한다.
도 3은 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 예시적인 실시예들을 도시한다.
도 4는 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 다른 예시적인 실시예들을 도시한다.
도 5는 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다.
도 6은 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다.
도 7은 일부 실시예들에 따른 FVV 스트리밍을 위한 디코더 중심의 코덱을 구현하는 디바이스들의 도면을 도시한다.
도 8은 일부 실시예들에 따른 디코더 중심의 UV 코덱을 구현하도록 구성된 예시적인 컴퓨팅 디바이스의 블록도를 도시한다.
도 9는 일부 실시예들에 따른 디바이스들의 네트워크의 도면을 도시한다.
자유 시점 아키텍처들에서, 장면은 다수의 상이한 시점들로부터 캡처된다. 캡처된 콘텐츠는 일반적으로 캡처 측에서 처리되고, 인코딩되고 추가로 전송되는 포맷으로 변환된다. 디코더는 인코딩된 데이터 포맷을 수신하고, 그것을 압축 해제하여 렌더러에게 전달하며, 렌더러는 수신한 콘텐츠를 사용하여 시청자에 의해 요구된 시야 위치를 생성할 것이다. 전송에 사용되는 포맷은 렌더러에게 포토 리얼리즘적인 품질(photo-realistic quality)로 임의의 요구된 시야 위치를 생성할 수 있게 하는 유연성을 제공해야 하며, 이러한 품질은 데이터 포맷 및 대역폭에 몇 가지 제약을 부과한다.
획득 단계에서, 고밀도 뷰의 3D 비디오 캡처는 다수의 카메라들(예를 들어, 40 내지 100개 이상)을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처할 수 있다. 보다 구체적으로, 카메라들 간의 간격은 각 카메라 사이에서 매우 작을 수 있다(예를 들어, 5도 미만). 고밀도 뷰의 3D 비디오 캡처에서, 데이터 대역폭은 주요 관심사이며, MVC와 같은 멀티 뷰 캡처를 위한 비디오 압축 표준들조차도 뷰들(views) 간의 중복량과 장면의 시간 변화량에 따라 조건부로 성능들이 조정된다.
뷰들을 캡처하는 수를 줄이면서 여전히 자유 시점 탐색을 가능하게 하기 위해, 지오메트리가 프록시로서 사용되어 획득된 시점들을 수정하고 이전에 캡처되지 않은 시야 위치들을 합성할 수 있다. 장면의 지오메트리를 획득하는 한 가지 방법은 능동 심도 카메라들(active depth cameras)을 이용하거나 캡처된 뷰들로부터 심도 추정을 수행하는 것이다. 이 처리 단계에서 생성된 표현 포맷은 심도 맵으로도 알려진 캡처된 각 RGB 픽셀의 심도일 수 있다. 스파스 RGB 카메라 뷰들 및 해당 심도 맵들의 전송은 또한 3D-HEVC와 같은 이용 가능한 표준들을 사용하여 수행할 수 있다. 그러나, 일반적으로 카메라들은 선형으로 배열되고 서로 가깝게 위치하도록 제한되어 탐색 공간을 제한하게 된다. 또한, 폐색(occlusion)은 스파스 뷰의 3D 비디오 캡처를 사용할 때 훨씬 더 우려가 된다.
컴퓨터 그래픽들에서, 완전 자유 시점 탐색은 3D 메쉬들을 지오메트리 프록시들로서 이용하여 수행된다. 3D 메쉬들은 또한 현재 이용 가능한 표준들을 사용하여, 예를 들어, 메쉬 압축을 위한 MPEG AFX 코딩 도구들을 사용하여 압축될 수 있다. 자유 시점 탐색의 경우, 메쉬 지오메트리와 함께 캡처된 뷰들은 전송용으로 사용될 수 있지만 그 성능은 여전히 뷰들을 캡처하는 수에 의해 제한된다. 뷰들의 수가 더 많을수록 렌더링이 보다 현실적일 수 있지만, 텍스처 전송을 위해서는 보다 많은 대역폭이 필요하다.
메쉬들을 지오메트리 프록시들로서 사용하고 텍스처 전송을 위해 대역폭을 줄이는 한 가지 방법은 3D 메쉬의 표면과 관련된 텍스처만을 전송하는 것이다. 일부 구현예들에서, 3D 메쉬 표면의 텍스처는 UV 맵으로 알려지기도 한 2D 텍스처 아틀라스로 매핑된다. 전송의 경우, 제각기의 UV 맵들과 함께 메쉬들은 전송 대역폭을 크게 감소시키는 선택된 포맷이 된다. 그러나, 최종 렌더링 품질은 뷰 독립 품질(view independent quality)로 제한되며, 즉, 시야 위치에 관계없이, 메쉬 표면은 동일한 RGB 값을 제공할 것이며, 이는 시야 위치에 따라 텍스처 값을 변경할 수도 있는 포토 리얼리즘적인 객체들을 갖는 경우는 아니다.
표면 텍스처 아틀라스의 포토 리얼리즘(photo-realism)을 보존하는 한 가지 방법은 계층화된 텍스처 맵을 사용하는 것이다. 뷰 종속 텍스처 특성은 캡처 카메라와 메쉬 간의 상대 위치에 의해 제공된다. 이러한 속성을 보존하기 위해, 텍스처 계층들은 다른 카메라들로부터 텍스처를 레코딩한다. 최상위 계층은 법선 표면(normal face)과 카메라 시야 축(camera viewing axis) 간의 각도에 의해 제공되는 각각의 메쉬 표면에 대해 가장 높은 순위의 카메라를 저장한다. 후속 계층들에서는 상이한 시야각들로부터의 카메라들이 저장된다. 디코더 측에서, 선택된 시야 위치에 따라, 원하는 시야 위치에 더 가까운 카메라 위치를 포함하는 계층으로부터 텍스처가 선택될 수 있으므로, 포토 리얼리즘적인 캡처 객체에 더 가까운 뷰를 제공할 수 있다.
멀티-계층 UV 텍스처 접근법은 텍스처 전송을 위해 보다 많은 대역폭을 필요로 한다. 또한, 계층들로의 텍스처의 순위를 전송해야 할 수도 있다. 이러한 순위가 지오메트리에 의존하는 경우, 지오메트리 압축에서의 아티팩트들이 순위 결과를 상쇄시킬 수 있으며, 이는 순위 데이터의 전송을 부과하여 지오메트리 아티팩트들에 의해 발생하는 텍스처 아티팩트들을 회피한다. 이러한 메타데이터의 전송은 대역폭에 심각한 영향을 줄 수 있으며, 효율적인 데이터 전송에 대한 병목 현상이 될 수 있다.
여기에 기술되는 것은 인코더 아키텍처이며, 이는 대역폭이 효율적이며 메타데이터 정보의 전송을 회피하고 있다. 인코더 아키텍처는 여전히 멀티-계층 접근법을 이용하지만, 텍스처 매핑 및 순위 지정 동작을 위해 디코딩된 지오메트리 정보를 사용함으로써 부담스러운 메타데이터 전송을 회피하고 있다. 이러한 새로운 아키텍처를 사용하면, 자유 시점 비디오에 대한 멀티-계층 텍스처의 효율적인 전송이 가능하다.
고밀도 뷰의 3D 비디오 캡처는 다수의 카메라들(예를 들어, 40 내지 100 개 이상)을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처한다. 보다 구체적으로, 카메라들 간의 간격은 각 카메라 사이에서 매우 작을 수 있다(예를 들어, 5도 미만). 고밀도 뷰의 3D 비디오 캡처에서, 처리는 스파스 뷰의 3D 비디오 캡처에서와 비교할 때 비교적 간단한데, 그 이유는 고밀도 뷰의 3D 비디오 캡처 중에는 나타나지 않는 문제가 스파스 뷰의 3D 비디오 캡처에서 발생하기 때문이다. 예를 들어, 폐색은 스파스 뷰의 3D 비디오 캡처를 사용할 때 훨씬 더 우려가 된다.
스파스 뷰의 3D 비디오 캡처는 훨씬 적은 카메라들을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처한다. 예를 들어, 스파스 뷰의 3D 비디오 캡처는 고밀도 뷰의 3D 비디오 캡처가 100 개의 카메라를 사용하는 공간과 동일한 공간에 대해 10 개 또는 그 미만의 카메라를 사용할 수 있다. 즉, 카메라들 사이의 (적어도 하나의 축 또는 모든 축 상에서의) 간격은 45도일 수 있거나 또는 심지어는 90 도가 될 수 있다. 스파스 뷰의 3D 비디오 캡처의 카메라들이 너무 멀리 떨어져 있고 스테레오 매칭이 옵션이 아니기 때문에 형상 재구성을 수행하기가 어렵다. 또한, 뷰들 간에 중복량이 감소되어 압축 알고리즘의 성능에 영향을 미치게 된다. 이 경우, 메쉬 및 메쉬의 표면에서 텍스처를 이용하는 데이터 포맷은 효율성을 높이는 데 바람직하다.
스파스 뷰의 360도 캡처 시스템에서 FVV에 대해 시간적으로 일관되고 포토 리얼리즘적인 텍스처 합성을 달성하기 위해, 멀티-계층 텍스처 데이터 표현이 이용된다. 멀티-계층 텍스처 데이터 표현은, 2D 텍스처들에서 결합되고, 카메라들을 순위 지정하는 기준에 따라 정렬되는 여러 카메라들의 텍스처 기여도들을 포함한다. 카메라 기준에 대한 하나의 가능한 실시예는 카메라와 캡처되는 3D 모델 표면 데이터 간의 각도이지만, 다른 기준이 적용될 수 있다. 멀티-계층 데이터를 사용하여 뷰 종속 뷰들(view-dependent views)을 렌더링하기 위해서는, 텍스처를 생성한 카메라의 식별자(ID)도 또한 전송된다.
수신된 압축 메쉬가 제공되면, 디코더는 카메라 ID 정보를 생성한다. 디코더 중심 접근법은 디코더 측에서 디코딩된 메쉬에 기초하여 카메라 ID 정보를 생성한다. 인코더는 인코더와 디코더 간의 미스매칭을 피하기 위해, 원래의 압축되지 않은 메쉬가 아닌 압축 해제된 메쉬를 사용하여 텍스처 매핑을 수행한다. 카메라 ID 정보와 같은 메타데이터 정보의 전송을 피하고 텍스처 매핑을 위해 압축 해제된 메쉬를 이용함으로써, UV 좌표들(UV는 3D 모델 표면의 텍스처를 묘사하는 2D 이미지인 텍스처 아틀라스의 축임)의 전송이 방지된다. 이는 뷰 종속 데이터의 전송에 필요한 비트 전송률을 크게 감소시킨다.
UV 매핑은 텍스처 매핑을 위해 3D 모델의 표면에 2D 이미지를 투영하는 3D 모델링 프로세스이다. X, Y 및 Z는 모델 공간에서 3D 객체의 축들을 나타내는 데 사용되므로 U와 V는 2D 텍스처의 축이 된다. FVV에는 객체에 대해 (예를 들어, 상이한 각도들로부터의) 다수의 시점들이 존재할 수 있으며, 이는 FVV 콘텐츠를 인코딩하고 디코딩할 때 사용되는 여분의 데이터/메타데이터가 존재하고 있음을 의미한다. 그러나, 디코더 중심 코덱을 구현함으로써, 인코더로부터 디코더로 전송/스트리밍되는 여분의 데이터/메타데이터의 양은 크게 감소된다.
도 1은 일부 실시예들에 따른 시점 비디오 아키텍처들에서 수행되는 동작들의 흐름도를 도시한다. 단계(100)에서, 콘텐츠가 캡처된다. 단계(120)에서, 캡처된 콘텐츠는 전처리된다. 단계(140)에서, 처리된 콘텐츠가 인코딩된다. 단계(160)에서, 인코딩된 콘텐츠는 디코딩된다. 단계(180)에서, 디코딩된 콘텐츠가 캡처된다.
본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
캡처된 콘텐츠는 전처리된다. 전처리는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함한다. 메쉬 생성은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹은, 비 강체 변형(non-rigid deformation)에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑은 획득된 콘텐츠로부터의 텍스처 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.
메쉬 트래킹으로부터, 정점들의 좌표들 및 정점들의 연결성은 지오메트리 인코더에 의해 인코딩된다. 멀티-계층 UV 텍스처들과 같은 텍스처들은 동반되는 멀티-계층 카메라 ID들을 사용하여 UV 텍스처 인코더에 의해 인코딩된다. 지오메트리 인코더로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더에 전송(예를 들어, 스트리밍)되고, UV 텍스처 인코더로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 UV 텍스처 디코더에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. UV 텍스처 디코더는 적절한 텍스처 정보와 부합하는 카메라 ID 정보를 생성함으로써 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 카메라 ID 정보는 적절한 카메라 ID 정보를 결정하는 데 사용될 수 있는 지오메트리 디코더로부터의 디코딩된 형상 정보를 사용하여 생성된다. 예를 들어, 객체의 지오메트리는 특정 카메라 ID와 연관되며, 객체의 결정된 지오메트리에 기초하여 카메라 ID가 결정될 수 있다.
그 후, 렌더링 디바이스는 지오메트리 디코더로부터의 디코딩된 형상 정보, 디코딩된 텍스처, 및 UV 텍스처 디코더로부터의 카메라 ID를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.
도 2는 일부 실시들예에 따른 자유 시점 비디오 데이터 콘텐츠의 압축 및 전송을 위한 예시적인 실시예들을 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222)을 통과한다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 그 다음, 지오메트리 인코더(242)는 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 MV 텍스처 인코더(244)로 간다. MV 텍스처 인코더(244)는 멀티 뷰 텍스처들(multi-view textures)을 인코딩한다.
일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(226) 및 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹(224)은, 비 강체 변형에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성(226)은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성(226)은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성(226)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑(228)은 획득된 콘텐츠로부터의 텍스터 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑(228)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.
그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터 및 UV 아틀라스를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 텍스처 매핑(228)이 적용된 후에 UV 텍스처 인코더(246)로 간다. UV 텍스처 인코더(246)는 UV 텍스처들을 인코딩한다.
도 3은 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 예시적인 실시예들을 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)은 본 명세서에서 설명되었다.
그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터 및 UV 아틀라스를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344) 및 메타데이터 인코더(346)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보를 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.
지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)되고, 인코딩된 메타데이터(346)는 메타데이터 디코더(366)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 메타데이터 디코더(366)는 인코딩된 메타데이터 콘텐츠를 디코딩한다.
그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 메타데이터 디코더(366)로부터의 디코딩된 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.
도 4는 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 실시예들 중의 특정의 예를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)은 본 명세서에서 설명되었다.
그 후, 지오메트리 인코더(242)는 메쉬 트래킹 데이터(예를 들어, 정점들의 좌표들 및 정점들의 연결성) 및 UV 아틀라스(예를 들어, 텍스처 좌표들)를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344) 및 메타데이터 인코더(346)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보, 예를 들어, 2kx2k 텍스처 이미지들의 수 개의 계층들을 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.
메타데이터 인코더(346)는 멀티-계층 카메라 ID, 예를 들어, UV 맵(2kx2k)과 동일한 크기를 갖는 이미지들을 인코딩하지만, RGB 값 대신 카메라 ID가 전송된다. 지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)되고, 인코딩된 메타데이터(346)는 메타데이터 디코더(366)에 전송(예를 들어, 스트리밍)된다.
일부 실시예들에서, 지오메트리 인코더는 바로 MPEG 메쉬 압축 표준인 AFX이며, 이 AFX는 정점들의 좌표들, 정점 연결성 및 텍스처 좌표들을 갖는 메쉬들의 시퀀스를 64Mbps의 총 비트 전송률로 인코딩할 수 있다. 멀티-계층 UV 텍스처 인코더(344)는, 예를 들어, 비디오 압축을 위한 MPEG 표준인 AVC와 같은 다수의 비디오 인코더들일 수 있다. 다수의 비디오 인코더들로부터, 2kx2k 해상도 및 3 개의 계층들을 멀티-계층 UV 맵들의 압축은 33Mbps를 달성할 수 있다. 이러한 동일한 실시예에서, 카메라 ID 정보는 PNG 인코더와 같은 무손실 이미지 인코더로 압축될 수 있고 87Mbps에 도달할 수 있다. 총 184Mbps가 뷰 종속 정보를 전송하는 데 사용되고, 이 비트 전송률의 거의 절반이 카메라 ID 정보의 전송에 전용된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 메타데이터 디코더(366)는 인코딩된 메타데이터 콘텐츠를 디코딩한다. 그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 메타데이터 디코더(366)로부터의 디코딩된 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.
도 5는 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)은 본 명세서에서 설명되었다.
그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터만을 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보를 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.
지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 지오메트리 디코더(362)는 인코더 측에서 복제될 수 있고, 멀티-계층 텍스처 매핑을 위해 지오메트리 정보를 UV 아틀라스 생성(326)에 또한 전송할 수 있다. 메타데이터 생성(466)은 또한 지오메트리 디코더(362)로부터의 지오메트리 정보를 사용하여 구현된다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다.
그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 지오메트리 디코더(362)로부터의 디코딩된 지오메트리를 사용하여 생성된(566) 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.
도 6은 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.
캡처된 콘텐츠는 전처리된다. 전처리는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 텍스처 매핑(328)을 포함한다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹(224)은, 비 강체 변형에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성(326)은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성(326)은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성(326)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑(328)은 획득된 콘텐츠로부터의 텍스터 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑(328)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.
메쉬 트래킹(224)으로부터, 정점들의 좌표들 및 정점들의 연결성은 지오메트리 인코더(342)에 의해 인코딩된다. 일부 실시예들에서, 지오메트리 인코더는 5Mbps 만큼의 작은 비트 전송률을 생성할 수 있는 FAMC로도 알려진 동적 메쉬 압축을 위한 MPEG 표준일 수 있다. 멀티-계층 UV (1K × 1K) 텍스처들과 같은 텍스처들은 UV 텍스처 인코더(344)에 의해 인코딩된다. 일부 실시예들에서, 멀티-계층 텍스처 인코더는 H.264/AVC와 같은 계층 당 비디오 압축을 위한 MPEG의 표준의 인스턴스일 수 있다. MPEG 인코더들은 14Mbps 만큼의 낮은 총 비트 전송률을 생성하여 총 19Mbps로 1kx1k 텍스처의 3 개의 계층들을 인코딩함으로써 뷰 종속 자유 시점 데이터를 전송할 수 있다. 지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 UV 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 디코딩된 지오메트리를 사용하여, 디코더는 적절한 텍스처 정보에 부합하는 카메라 ID 정보를 로컬로 생성할 수 있다(566). 카메라 ID 정보는 적절한 카메라 ID 정보를 결정하는 데 사용될 수 있는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보를 사용하여 생성된다. 예를 들어, 객체의 지오메트리는 특정 카메라 ID와 연관되며, 객체의 결정된 지오메트리에 기초하여 카메라 ID가 결정될 수 있다.
그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 디코딩된 텍스처, 및 디코더 측(566)에서 생성된 카메라 ID를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다. 일부 실시예들에서, 인코더는 지오메트리 정보 및 텍스처 정보를 전송하기 전에 멀티-계층(예를 들어, 뷰 종속) 접근법 대 단일 계층(예를 들어, 뷰 독립) 접근법의 사용을 시그널링할 수 있다.
일부 실시예들에서, 더 적거나 또는 추가의 단계들이 구현된다. 일부 실시예들에서, 단계들의 순서가 수정된다. 또한, 도 5는 특정 설정들 및 측정치들을 갖는 예시적인 실시예이다. 다른 해상도들의 설정들과 같은 다른 설정들을 갖는 실시예들이 가능하다는 것이 이해된다.
일부 실시예들에서, 본 명세서에 기술된 단계들은 동일한 디바이스 상에서 발생하고, 일부 실시예들에서, 그 단계들은 개별 디바이스들(예를 들어, 캡처 디바이스들, 전처리 디바이스, 인코더 디바이스, 디코더 디바이스 및 렌더링 디바이스) 상에서 발생한다. 다른 예에서, 캡처 디바이스들은 다수의 3D 카메라들을 포함하고, 전처리, 인코딩 및 디코딩 디바이스들은 서버들 또는 컴퓨팅 디바이스들이고, 렌더링 디바이스는 텔레비전이다. 또 다른 예에서, 캡처 디바이스는 다수의 3D 카메라들을 포함하고, 전처리 디바이스들 및 인코딩 디바이스들은 네트워크를 통해 디코딩 디바이스들 및 렌더링 디바이스들에 연결된다.
도 7은 일부 실시예들에 따른 FVV 스트리밍을 위한 디코더 중심의 코덱을 구현하는 디바이스들의 도면을 도시한다. 캡처 디바이스들(700)은 다수의 상이한 각도들로부터의 FVV 콘텐츠를 캡처한다. 예를 들어, 스파스 개수(예를 들어, 10 이하)의 카메라들은 객체/장면을 동시에 비디오 레코딩하기 위해 배치된다. 캡처된 콘텐츠(예를 들어, 다수의 계층의 콘텐츠)는 전처리 디바이스(702)에서 처리된다. 전처리 디바이스(702)는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 수행한다. 전처리 디바이스(702)는 서버 또는 임의의 다른 컴퓨팅 디바이스일 수 있다. 전처리 후, 적절한 콘텐츠(예를 들어, 정점들의 좌표들/연결성, 멀티-계층 UV 및 멀티-계층 카메라 ID들)는 인코딩을 위해 인코딩 디바이스(704)로 간다. 인코딩 디바이스(704)는 (전처리 용) 서버의 일부, 다른 서버 또는 다른 컴퓨팅 디바이스일 수 있다. 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 및 인코딩된 UV 텍스처)는 그 후 인코딩된 콘텐츠를 디코딩하기 위해 디코딩 디바이스(706)로 전송(예를 들어, 스트리밍)된다. 디코딩 디바이스(706)는 전형적으로 네트워크(예를 들어, LAN 또는 인터넷)를 통해 인코딩 디바이스(704)에 연결된 별도의 디바이스이다. 그 후, 디코딩된 콘텐츠는 렌더링(및 디스플레이)을 위해 렌더링 디바이스(708)에 수신된다. 일부 실시예들에서, 디코딩 디바이스(706) 및 렌더링 디바이스(708)는 동일한 디바이스(예를 들어, 텔레비전, 모니터를 갖는 컴퓨터)의 일부이고, 일부 실시예들에서 디코딩 디바이스(706) 및 렌더링 디바이스(708)는 상이한 디바이스들 내/상에 있다.
도 8은 일부 실시예들에 따른 디코더 중심의 UV 코덱을 구현하도록 구성된 예시적인 컴퓨팅 디바이스의 블록도를 도시한다. 컴퓨팅 디바이스(800)는 이미지들 및 비디오들(예를 들어, FVV)과 같은 정보를 획득, 저장, 계산, 처리, 전달 및/또는 디스플레이하는 데 사용될 수 있다. 컴퓨팅 디바이스(800)는 캡처, 전처리, 인코딩, 디코딩 및/또는 렌더링과 같은 디코더 중심의 UV 코덱 양태들을 구현할 수 있다. 일반적으로, 컴퓨팅 디바이스(800)를 구현하는 데 적합한 하드웨어 구조는 네트워크 인터페이스(802), 메모리(804), 프로세서(806), I/O 디바이스(들)(808), 버스(810) 및 저장 디바이스(812)를 포함한다. 충분한 속도를 가진 적합한 프로세서가 선택되는 한 프로세서의 선택은 중요하지 않다. 메모리(804)는 본 기술 분야에서 공지된 임의의 종래의 컴퓨터 메모리일 수 있다. 저장 디바이스(812)는 하드 드라이브, CDROM, CDRW, DVD, DVDRW, 고선명 디스크/드라이브, 울트라-HD 드라이브, 플래시 메모리 카드 또는 임의의 다른 저장 디바이스를 포함할 수 있다. 컴퓨팅 디바이스(800)는 하나 이상의 네트워크 인터페이스들(802)을 포함할 수 있다. 네트워크 인터페이스의 예는 이더넷 또는 다른 타입의 LAN에 접속된 네트워크 카드를 포함한다. I/O 디바이스(들)(808)는 키보드, 마우스, 모니터, 스크린, 프린터, 모뎀, 터치스크린, 버튼 인터페이스 및 다른 디바이스들 중 하나 이상을 포함할 수 있다. 디코더 중심의 UV 코덱을 구현하는 데 사용되는 디코더 중심의 UV 코덱 애플리케이션(들)(830)은 저장 디바이스(812) 및 메모리(804)에 저장되고, 애플리케이션들이 일반적으로 처리될 때 처리될 가능성이 있다. 도 8에 도시된 더 많거나 적은 컴포넌트들이 컴퓨팅 디바이스(800)에 포함될 수 있다. 일부 실시예들에서, 디코더 중심의 UV 코덱 하드웨어(820)가 포함된다. 도 8의 컴퓨팅 디바이스(800)는 디코더 중심의 UV 코덱을 위한 애플리케이션들(830) 및 하드웨어(820)를 포함하지만, 디코더 중심의 UV 코덱은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 컴퓨팅 디바이스 상에 구현될 수 있다. 예를 들어, 일부 실시예들에서, 디코더 중심의 UV 코덱 애플리케이션들(830)은 메모리에 프로그래밍되고 프로세서를 사용하여 실행된다. 다른 예로서, 일부 실시예들에서, 디코더 중심의UV 코덱 하드웨어(820)는 디코더 중심의 UV 코덱을 구현하도록 특별히 설계된 게이트들을 포함하는 프로그래밍된 하드웨어 로직이다.
일부 실시예들에서, 디코더 중심의 UV 코덱 애플리케이션(들)(830)은 몇몇 애플리케이션들 및/또는 모듈들을 포함한다. 일부 실시예들에서, 모듈들은 또한 하나 이상의 서브 모듈들을 포함한다. 일부 실시예들에서, 더 적거나 또는 추가의 모듈들이 포함될 수 있다.
일부 실시예들에서, 디코더 중심의 UV 코덱 하드웨어(820)는 렌즈, 이미지 센서, 및/또는 임의의 다른 카메라 컴포넌트들과 같은 카메라 컴포넌트들을 포함한다.
적합한 컴퓨팅 디바이스의 예는 퍼스널 컴퓨터, 랩탑 컴퓨터, 컴퓨터 워크스테이션, 서버, 메인프레임 컴퓨터, 핸드헬드 컴퓨터, 개인 휴대 정보 단말기, 셀룰러/모바일 전화기, 스마트 기기, 게임 콘솔, 디지털 카메라, 디지털 캠코더, 카메라폰, 스마트폰, 휴대용 뮤직 플레이어, 태블릿 컴퓨터, 모바일 디바이스, 비디오 플레이어, 비디오 디스크 라이터/플레이어(예를 들어, DVD 라이터/플레이어, 고선명 디스크 라이터/플레이어, 울트라 고선명 디스크 라이터/플레이어), 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 가상 현실 디바이스, 스마트 쥬얼리(예를 들어, 스마트 시계) 또는 임의의 다른 적합한 컴퓨팅 디바이스를 포함한다.
도 9는 일부 실시예들에 따른 디바이스들의 네트워크의 도면을 도시한다. 복수의 카메라들(900)은 3D/FVV 비디오 콘텐츠를 획득하는 데 이용된다. 비디오 콘텐츠는 하나 이상의 프로세서/인코더 디바이스들(902)에서 처리되고 인코딩된다. 인코딩된 콘텐츠는 네트워크(904)(예를 들어, 인터넷, 셀룰러 네트워크 또는 임의의 다른 네트워크)를 통해 하나 이상의 디코더/렌더러 디바이스들(906)에 전송/스트리밍된다. 일부 실시예들에서, 콘텐츠는 네트워크없이 직접적으로 하나 이상의 디코더/렌더러 디바이스들(906)에 전송된다. 디바이스들의 네트워크 중 하나 이상의 디바이스들(예를 들어, 프로세서/인코더 디바이스, 디코더/렌더러 디바이스)은 본 명세서에 설명된 디코더 중심의 UV 코덱 구현을 수행하도록 구성된다. 하나 이상의 프로세서/인코더 디바이스들(902) 및 하나 이상의 디코더/렌더러 디바이스들(906)은 서버들, 퍼스널 컴퓨터들, 스마트폰, 텔레비전들, 게임 시스템 또는 본 명세서에 설명된 디바이스들 중 임의의 디바이스와 같은 임의의 디바이스일 수 있거나 또는 본 명세서에 설명된 디바이스들의 임의의 조합일 수 있다. 일부 실시예들에서, 카메라(들)(900)는 전처리 및/또는 인코딩과 같은 디코더 중심 UV 코덱의 추가 양태들을 구현한다.
본 명세서에 설명된 디코더 중심의 UV 코덱을 이용하기 위한, 디지털 카메라들/캠코더들과 같은 디바이스들은 3D/FVV 콘텐츠를 획득하는 데 사용된다. 디코더 중심의 UV 코덱은 3D/FVV 콘텐츠를 효율적으로 인코딩, 전송, 디코딩 및 렌더링하기 위해 사용자의 지원으로 또는 사용자의 개입없이 자동으로 구현될 수 있다. 그런 다음, 획득된 콘텐츠의 재생시, 보다 정확한 콘텐츠가 (예를 들어, 아티팩트들이 적거나 없이) 디스플레이된다.
작동시, 디코더 중심의 UV 코덱은 이전의 구현보다 더 정확한 콘텐츠를 생성한다. 또한, 디코더 중심의 UV 코덱은 인코더에서 디코더 지오메트리를 이용하고 디코더에서의 지오메트리로부터 카메라 ID를 추론함으로써 보다 효율적이다. 디코더 중심의 UV 코덱을 사용하여 인코더에서 디코더로 훨씬 적은 메타데이터가 전송된다.
자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱의 일부 실시예들
1. 방법으로서,
자유 시점 비디오 콘텐츠를 전처리하는 단계;
인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계;
디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계; 및
상기 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계를 포함하는 방법.
2. 제1항에 있어서, 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 방법.
3. 제2항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 방법.
4. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 단계는 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 단계 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 단계를 포함하는 방법.
5. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 단계는 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 단계를 포함하는 방법.
6. 제1항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 방법.
7. 제1항에 있어서, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하는 단계를 추가로 포함하는 방법.
8. 제1항에 있어서, 최대 10 개의 비디오 카메라를 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
9. 제1항에 있어서, 다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
10. 제1항에 있어서, 뷰 종속 렌더링을 위해 멀티-계층 텍스처의 사용을 시그널링하는 단계를 추가로 포함하는 방법.
11. 제1항에 있어서, 카메라 식별을 멀티-계층 텍스처 표현의 각 텍스처 계층 내의 픽셀에 연관시키는 단계를 추가로 포함하는 방법.
12. 장치로서,
애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은: 자유 시점 비디오 콘텐츠를 전처리하고; 인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 것임 -; 및
상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서를 포함하는 장치.
13. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 장치.
14. 제13항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 장치.
15. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 장치.
16. 장치로서,
애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은: 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성함으로써, 상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고; 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 것임 -; 및
상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서를 포함하는 장치.
17. 제16항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 장치.
18. 제16항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 장치.
19. 시스템으로서,
자유 시점 비디오 콘텐츠를 각각 캡처하도록 구성된 복수의 카메라 디바이스들;
제1 컴퓨팅 디바이스 - 상기 제1 컴퓨팅 디바이스는: 자유 시점 비디오 콘텐츠를 전처리하는 것; 및 인코더에 의해, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 것을 수행하도록 구성됨 -; 및
제2 컴퓨팅 디바이스 - 상기 제2 컴퓨팅 디바이스는: 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 것; 및 상기 디코딩된 자유 시점 비디오 콘텐츠를 상기 제2 컴퓨팅 디바이스 상에 렌더링하는 것을 수행하도록 구성됨 -를 포함하는 시스템.
20. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 시스템.
21. 제19항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 시스템.
22. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 시스템.
23. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 시스템.
24. 제19항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 시스템.
25. 제19항에 있어서, 상기 제2 컴퓨팅 디바이스는 추가로, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하기 위해 구성되는 시스템.
본 발명은 본 발명의 구성 및 동작의 원리들을 이해하는 것을 가능하게 하는 상세한 설명들을 포함하는 특정 실시예들의 관점에서 설명되었다. 본 발명의 특정 실시예들 및 세부 사항들에 대한 이러한 참조는 첨부된 특허청구범위의 범위를 제한하려는 것이 아니다. 청구범위에 의해 정의된 바와 같은 본 발명의 사상 및 범위를 벗어나지 않고 설명을 위해 선택된 실시예에서 다른 다양한 수정들이 행해질 수 있음은 분 기술 분야의 기술자에게는 자명할 것이다.

Claims (25)

  1. 방법으로서,
    자유 시점 비디오 콘텐츠를 전처리하는 단계;
    인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계;
    상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하는 단계;
    상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계; 및
    상기 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계
    를 포함하고,
    상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는, 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용하는 방법.
  2. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 방법.
  3. 제2항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 방법.
  4. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 단계는 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 단계 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 단계를 포함하는 방법.
  5. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 단계는 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 단계를 포함하는 방법.
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    최대 10 개의 비디오 카메라를 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
  9. 제1항에 있어서,
    다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
  10. 제1항에 있어서,
    뷰 종속 렌더링을 위해 멀티-계층 텍스처의 사용을 시그널링하는 단계를 추가로 포함하는 방법.
  11. 제1항에 있어서,
    카메라 식별을 멀티-계층 텍스처 표현의 각 텍스처 계층 내의 픽셀에 연관시키는 단계를 추가로 포함하는 방법.
  12. 장치로서,
    애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은:
    자유 시점 비디오 콘텐츠를 전처리하고;
    인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 것임 -; 및
    상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서
    를 포함하는 장치.
  13. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 장치.
  14. 제13항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용하는 장치.
  15. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 장치.
  16. 장치로서,
    애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은:
    인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하고;
    상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성함으로써, 상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고;
    상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 것이고,
    상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용함 -; 및
    상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서
    를 포함하는 장치.
  17. 제16항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 장치.
  18. 삭제
  19. 시스템으로서,
    자유 시점 비디오 콘텐츠를 캡처하도록 각각 구성되는 복수의 카메라 디바이스들;
    제1 컴퓨팅 디바이스 - 상기 제1 컴퓨팅 디바이스는:
    자유 시점 비디오 콘텐츠를 전처리하고;
    인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하도록 구성됨 -; 및
    제2 컴퓨팅 디바이스 - 상기 제2 컴퓨팅 디바이스는:
    상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하고;
    상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고;
    상기 디코딩된 자유 시점 비디오 콘텐츠를 상기 제2 컴퓨팅 디바이스 상에 렌더링하도록 구성됨 -
    를 포함하고,
    상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는, 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용하는 시스템.
  20. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 시스템.
  21. 제20항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 시스템.
  22. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 시스템.
  23. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 시스템.
  24. 삭제
  25. 제19항에 있어서, 상기 제2 컴퓨팅 디바이스는 추가로, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하도록 구성되는 시스템.
KR1020197015195A 2016-11-28 2017-11-20 자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱 KR102194758B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662426900P 2016-11-28 2016-11-28
US62/426,900 2016-11-28
US15/816,094 US10389994B2 (en) 2016-11-28 2017-11-17 Decoder-centric UV codec for free-viewpoint video streaming
US15/816,094 2017-11-17
PCT/US2017/062461 WO2018098054A1 (en) 2016-11-28 2017-11-20 Decoder-centric uv codec for free-viewpoint video streaming

Publications (2)

Publication Number Publication Date
KR20190068622A KR20190068622A (ko) 2019-06-18
KR102194758B1 true KR102194758B1 (ko) 2020-12-23

Family

ID=62191154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197015195A KR102194758B1 (ko) 2016-11-28 2017-11-20 자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱

Country Status (6)

Country Link
US (1) US10389994B2 (ko)
EP (1) EP3526966A1 (ko)
JP (1) JP6939883B2 (ko)
KR (1) KR102194758B1 (ko)
CN (1) CN109997358B (ko)
WO (1) WO2018098054A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242484B1 (en) * 2017-10-17 2019-03-26 8i Limited UV mapping and compression
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream
JP7271099B2 (ja) * 2018-07-19 2023-05-11 キヤノン株式会社 ファイルの生成装置およびファイルに基づく映像の生成装置
KR102287133B1 (ko) * 2018-11-30 2021-08-09 한국전자기술연구원 자유 시점 영상 제공 방법 및 장치
US11457197B2 (en) * 2019-02-22 2022-09-27 Avalon Holographics Inc. Layered scene decomposition CODEC with view independent rasterization
CN110223382B (zh) * 2019-06-13 2021-02-12 电子科技大学 基于深度学习的单帧图像自由视点三维模型重建方法
US11120623B2 (en) * 2019-06-25 2021-09-14 HypeVR Optimized volumetric video playback
US10964089B1 (en) 2019-10-07 2021-03-30 Sony Corporation Method and apparatus for coding view-dependent texture attributes of points in a 3D point cloud
JP2023504097A (ja) * 2019-11-29 2023-02-01 中興通訊股▲ふん▼有限公司 マルチビュービデオ処理方法および装置
KR102612539B1 (ko) 2019-12-17 2023-12-11 한국전자통신연구원 다시점 비디오 부호화 및 복호화 방법
WO2021136878A1 (en) * 2020-01-02 2021-07-08 Nokia Technologies Oy A method, an apparatus and a computer program product for volumetric video encoding and decoding
US11601636B2 (en) * 2020-05-22 2023-03-07 Google Llc Methods, systems, and media for generating an immersive light field video with a layered mesh representation
US20230107834A1 (en) * 2021-10-04 2023-04-06 Tencent America LLC Method and apparatus of adaptive sampling for mesh compression by encoders
US20230162404A1 (en) * 2021-11-22 2023-05-25 Tencent America LLC Decoding of patch temporal alignment for mesh compression
US20230177736A1 (en) * 2021-12-03 2023-06-08 Tencent America LLC Method and apparatus for chart based mesh compression
JP2024008741A (ja) * 2022-07-09 2024-01-19 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
JP2024008742A (ja) * 2022-07-09 2024-01-19 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
WO2024053371A1 (ja) * 2022-09-06 2024-03-14 ソニーグループ株式会社 情報処理システム、および情報処理システムの作動方法、並びにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013090257A (ja) * 2011-10-21 2013-05-13 Dainippon Printing Co Ltd 自由視点映像表示装置
JP2016126425A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 自由視点画像生成装置、方法およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US805874A (en) * 1902-09-11 1905-11-28 Frank B Cook Automatic fire-extinguisher system.
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP3860323B2 (ja) 1997-10-27 2006-12-20 三菱電機株式会社 画像復号化装置、画像復号化方法
JP2000132683A (ja) * 1998-10-23 2000-05-12 Toshiba Corp 多視点画像符号化方法
JP2006041811A (ja) * 2004-07-26 2006-02-09 Kddi Corp 自由視点画像ストリーミング方式
US8878836B2 (en) 2008-02-29 2014-11-04 Samsung Electronics Co., Ltd. Method and apparatus for encoding datastream including additional information on multiview image and method and apparatus for decoding datastream by using the same
US20100259595A1 (en) * 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video
EP2309648A1 (en) * 2009-09-14 2011-04-13 Thomson Licensing Method for encoding floating-point data, method for decoding floating-point data, and corresponding encoder and decoder
CN102291579B (zh) * 2011-07-06 2014-03-05 北京航空航天大学 一种快速的多目立体视频分形压缩与解压缩方法
US9237329B1 (en) * 2012-10-18 2016-01-12 Google Inc. Systems and methods for capturing data of an object
US9483845B2 (en) * 2013-04-26 2016-11-01 Nvidia Corporation Extending prediction modes and performance of video codecs
JP6232075B2 (ja) * 2013-12-03 2017-11-22 日本電信電話株式会社 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
US9807373B1 (en) * 2013-12-27 2017-10-31 Google Inc. Systems and devices for acquiring imagery and three-dimensional (3D) models of objects
WO2015172227A1 (en) * 2014-05-13 2015-11-19 Pcp Vr Inc. Method, system and apparatus for generation and playback of virtual reality multimedia
GB2526838B (en) * 2014-06-04 2016-06-01 Imagination Tech Ltd Relightable texture for use in rendering an image
FR3028990B1 (fr) * 2014-11-21 2018-01-19 Institut National Des Sciences Appliquees De Lyon Procedes de compression et de decompression de donnees representatives d’un objet tridimensionnel numerique et support d'enregistrement d'informations contenant ces donnees
US10362290B2 (en) * 2015-02-17 2019-07-23 Nextvr Inc. Methods and apparatus for processing content based on viewing information and/or communicating content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013090257A (ja) * 2011-10-21 2013-05-13 Dainippon Printing Co Ltd 自由視点映像表示装置
JP2016126425A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 自由視点画像生成装置、方法およびプログラム

Also Published As

Publication number Publication date
US20180152688A1 (en) 2018-05-31
US10389994B2 (en) 2019-08-20
WO2018098054A1 (en) 2018-05-31
JP6939883B2 (ja) 2021-09-22
JP2020513703A (ja) 2020-05-14
KR20190068622A (ko) 2019-06-18
CN109997358B (zh) 2022-02-22
CN109997358A (zh) 2019-07-09
EP3526966A1 (en) 2019-08-21

Similar Documents

Publication Publication Date Title
KR102194758B1 (ko) 자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱
US11599968B2 (en) Apparatus, a method and a computer program for volumetric video
US10600233B2 (en) Parameterizing 3D scenes for volumetric viewing
US11025882B2 (en) Live action volumetric video compression/decompression and playback
US10419737B2 (en) Data structures and delivery methods for expediting virtual reality playback
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
US10484697B2 (en) Simultaneous localization and mapping for video coding
US10499033B2 (en) Apparatus, a method and a computer program for coding and rendering volumetric video
CN112189345B (zh) 用于编码或解码表示3d场景的数据的方法、设备或介质
JP7217226B2 (ja) グローバルな回転における動き補償画像を符号化する方法、デバイス及びストリーム
JP6845490B2 (ja) 自由動作fvvアプリケーションのためのマルチレイヤuvマップに基づくテクスチャレンダリング
WO2019229293A1 (en) An apparatus, a method and a computer program for volumetric video
WO2019122504A1 (en) Method for encoding and decoding volumetric video data
TW202106000A (zh) 傳送容積視訊內容之方法及裝置
WO2019077199A1 (en) APPARATUS, METHOD, AND COMPUTER PROGRAM FOR VOLUMETRIC VIDEO
JP2022549431A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
Verlani Proxy Based Compression of Depth Movies

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant